PyTorch训练或在线推理场景下,当使用HCCL作为通信后端时,可通过此环境变量控制是否开启异步错误处理。
当PyTorch版本为1.11.0时,默认值为0;当PyTorch版本大于等于2.1.0时,默认值为1。
export HCCL_ASYNC_ERROR_HANDLING=1
Atlas 训练系列产品
Atlas A2 训练系列产品