当开发者通过环境变量HCCL_OP_RETRY_ENABLE开启了HCCL的算子重执行特性时,可通过本环境变量配置第一次重执行的等待时间、最大重执行的次数以及两次重执行的间隔时间。
配置方法如下:
export HCCL_OP_RETRY_PARAMS="MaxCnt:5, HoldTime:5000, IntervalTime:5000"
仅通过环境变量HCCL_OP_RETRY_ENABLE开启了HCCL的重执行特性时(开启任一层级的重执行特性即可),此环境变量才生效。
Atlas A3 训练系列产品/Atlas A3 推理系列产品