算子级在线恢复
若网络故障的算子级在线恢复(HCCL通信算子重执行)执行失败,则回退至进程级在线恢复
了解算子级在线恢复的关键配置步骤,请参见配置算子级在线恢复。
HCCL(Huawei Collective Communication Library,华为集合通信库)是华为专为昇腾(Ascend)AI处理器设计的分布式通信库,旨在优化多设备(如NPU/GPU)间的高效协作,以加速深度学习模型的分布式训练,适用于需要大规模算力的AI场景。在分布式训练中,HCCL负责协调多个昇腾处理器之间的数据同步(如梯度聚合、参数更新),减少通信开销,提升训练效率。
使用场景
当前支持在以下2种故障场景下使用算子级在线恢复功能。
- 对于芯片网络相关故障,当算子重传成功时,Volcano会将任务作为亚健康任务处理。当算子重传失败时,Volcano触发重调度处理。
- 对于灵衢总线设备相关故障,HCCL执行算子级在线恢复后,Volcano会将任务作为亚健康任务处理。
使用约束
- 本特性不支持MC2开启场景。
- 不支持开启watchdog功能。
算子级在线恢复支持的产品和框架
产品系列 |
产品名称 |
训练框架 |
|---|---|---|
Atlas A3 训练系列产品 |
Atlas 900 A3 SuperPoD 集群算力系统 |
- |
算子级在线恢复原理
图1 原理图


在以上原理图中,各个步骤的说明如下。
- 训练过程中,发生HCCS网络平面LinkDown故障或RoCE网络平面LinkDown故障。
- CANN检测到网络故障,当前算子终止后,进行网络链路恢复(HCCS网络平面进行BGP切路,RoCE网络平面进行借轨通信),通信链路恢复后进行网络算子重执行。
- 算子重执行成功后,恢复训练迭代。
父主题: 故障处理