昇腾社区首页
中文
注册

HCCL_OP_RETRY_PARAMS

功能描述

当开发者通过环境变量HCCL_OP_RETRY_ENABLE开启了HCCL的算子重执行特性时,可通过本环境变量配置第一次重执行的等待时间、最大重执行的次数以及两次重执行的间隔时间。

配置方法如下:

export HCCL_OP_RETRY_PARAMS="MaxCnt:3, HoldTime:5000, IntervalTime:1000"
  • MaxCnt:最大重传次数,uint32类型,取值范围为[1,10],默认值为1,单位次。
  • HoldTime:从检测到通信算子执行失败到开始第一次重新执行的等待时间,uint32类型,取值范围[0,60000],默认值为5000,单位ms。
  • IntervalTime:同一个通信算子两次重执行的间隔时间,uint32类型,取值范围[0,60000],默认值为1000,单位ms。

配置示例

export HCCL_OP_RETRY_PARAMS="MaxCnt:5, HoldTime:5000, IntervalTime:5000"

使用约束

仅通过环境变量HCCL_OP_RETRY_ENABLE开启了HCCL的重执行特性时(开启任一层级的重执行特性即可),此环境变量才生效。

支持的型号

Atlas A3 训练系列产品/Atlas A3 推理系列产品