昇腾社区首页
中文
注册

配置算子级在线恢复

本章节将指导用户了解配置算子级在线恢复的关键步骤。算子级在线恢复的特性介绍、使用约束、支持的产品型号及原理请参见算子级在线恢复

配置环境变量

使用算子级在线恢复前,用户需在启动训练的脚本中配置环境变量HCCL_OP_RETRY_ENABLE和HCCL_OP_RETRY_PARAMS。关于该环境变量的详细说明请参见CANN 环境变量参考。配置示例如下。

export HCCL_OP_RETRY_ENABLE="L0:0, L1:1, L2:1"     # 设置HCCL算子不同层级(L0/L1/L2)的重执行开关状态
export HCCL_OP_RETRY_PARAMS="MaxCnt:3, HoldTime:5000, IntervalTime:1000"    # 配置HCCL算子重执行的具体参数,包括最大重执行次数、第一次重执行的等待时间以及两次重执行的间隔时间