HCCL_DESYNC_DEBUG

功能描述

PyTorch训练或在线推理场景场景下,当使用HCCL作为通信后端时,可通过此环境变量控制是否进行通信超时分析。

默认值:0。

  • 当前版本,仅打印超时分析结果,不会终止进程。
  • 当前版本该环境变量为试用环境变量,后续版本可能会存在变更。当集群组网规模较大时,若启用此环境变量,可能会出现训练进程异常卡死的情况。

配置示例

export HCCL_DESYNC_DEBUG=1

是否必选

使用约束

支持的型号

Atlas 训练系列产品

Atlas A2 训练系列产品