HCCL_OP_RETRY_PARAMS
功能描述
当开发者通过环境变量HCCL_OP_RETRY_ENABLE开启了HCCL的算子重执行特性时,可通过本环境变量配置第一次重执行的等待时间、最大重执行的次数以及两次重执行的间隔时间。
配置方法如下:
export HCCL_OP_RETRY_PARAMS="MaxCnt:3, HoldTime:5000, IntervalTime:1000"
- MaxCnt:最大重传次数,uint32类型,取值范围为[1,10],默认值为1,单位次。
- HoldTime:从检测到通信算子执行失败到开始第一次重新执行的等待时间,uint32类型,取值范围[0,60000],默认值为5000,单位ms。
- IntervalTime:同一个通信算子两次重执行的间隔时间,uint32类型,取值范围[0,60000],默认值为1000,单位ms。
配置示例
export HCCL_OP_RETRY_PARAMS="MaxCnt:5, HoldTime:5000, IntervalTime:5000"
使用约束
仅通过环境变量HCCL_OP_RETRY_ENABLE开启了HCCL的重执行特性时(开启任一层级的重执行特性即可),此环境变量才生效。
支持的型号
父主题: 集合通信