HCCL_DIAGNOSE_ENABLE
功能描述
此环境变量用于配置集合通信是否缓存部分任务的详细信息,以便任务执行失败时,打印详细日志,用于问题定位。
配置示例
export HCCL_DIAGNOSE_ENABLE=1
- “1”代表开启。
- “0”代表关闭,默认关闭。
是否必选
否
使用约束
最多保存最新的2000个算子信息。
支持的型号
Atlas A2 训练系列产品
父主题: 集合通信相关配置
此环境变量用于配置集合通信是否缓存部分任务的详细信息,以便任务执行失败时,打印详细日志,用于问题定位。
export HCCL_DIAGNOSE_ENABLE=1
否
最多保存最新的2000个算子信息。
Atlas A2 训练系列产品