配置算子级在线恢复

本章节将指导用户了解配置算子级在线恢复的关键步骤。算子级在线恢复的特性介绍、使用约束、支持的产品型号及原理请参见算子级在线恢复

配置环境变量

使用算子级在线恢复前,用户需在启动训练的脚本中配置环境变量HCCL_OP_RETRY_ENABLE和HCCL_OP_RETRY_PARAMS。关于该环境变量的详细说明请参见CANN 环境变量参考配置示例如下。

export HCCL_OP_RETRY_ENABLE="L0:0, L1:1, L2:0"