配置算子级在线恢复
本章节将指导用户了解配置算子级在线恢复的关键步骤。算子级在线恢复的特性介绍、使用约束、支持的产品型号及原理请参见算子级在线恢复。
配置环境变量
使用算子级在线恢复前,用户需在启动训练的脚本中配置环境变量HCCL_OP_RETRY_ENABLE和HCCL_OP_RETRY_PARAMS。关于该环境变量的详细说明请参见《CANN 环境变量参考》。配置示例如下。
export HCCL_OP_RETRY_ENABLE="L0:0, L1:1, L2:1" # 设置HCCL算子不同层级(L0/L1/L2)的重执行开关状态 export HCCL_OP_RETRY_PARAMS="MaxCnt:3, HoldTime:5000, IntervalTime:1000" # 配置HCCL算子重执行的具体参数,包括最大重执行次数、第一次重执行的等待时间以及两次重执行的间隔时间
父主题: 配置故障处理