HCCL_ASYNC_ERROR_HANDLING

功能描述

PyTorch训练或在线推理场景场景下,当使用HCCL作为通信后端时,可通过此环境变量控制是否开启异步错误处理。
  • 0:不开启异步错误处理。
  • 1:开启异步错误处理。

当PyTorch版本为1.11.0时,默认值为0;当PyTorch版本大于等于2.1.0时,默认值为1。

  • 当前版本,开启异步处理时,若出现ERROR CQE错误,进程会终止;其他错误信息,仅打屏提示,不会终止进程。
  • 当前版本该环境变量为试用环境变量,后续版本可能会存在变更。

配置示例

export HCCL_ASYNC_ERROR_HANDLING=1

是否必选

使用约束

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品