昇腾社区首页
中文
注册
开发者
下载

HCCL_DIAGNOSE_ENABLE

功能描述

此环境变量用于配置集合通信是否缓存部分任务的详细信息,以便任务执行失败时,打印详细日志,用于问题定位。

支持如下取值:
  • 1:代表开启集合通信缓存。
  • 0:代表不开启集合通信缓存。

默认值为“0”。

需要注意,此环境变量开启后会对性能产生影响。

配置示例

export HCCL_DIAGNOSE_ENABLE=1

使用约束

最多保存最新的2000个算子信息。

支持的型号

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800T A2 训练服务器、Atlas 900 A2 PoD 集群基础单元、Atlas 200T A2 Box16 异构子框。