算子级在线恢复
Atlas A3 训练系列产品支持在发生参数面网络故障时,HCCL会执行通信算子重传。在故障进程不退出的情况下,算子级在线恢复可容忍更长时间的网络异常,训练任务不中断。
若网络故障的算子级在线恢复(HCCL通信算子重执行)执行失败,则回退至进程级在线恢复
了解算子级在线恢复的关键配置步骤,请参见配置算子级在线恢复。

HCCL(Huawei Collective Communication Library,华为集合通信库)是华为专为昇腾(Ascend)AI处理器设计的分布式通信库,旨在优化多设备(如NPU/GPU)间的高效协作,以加速深度学习模型的分布式训练,适用于需要大规模算力的AI场景。在分布式训练中,HCCL负责协调多个昇腾处理器之间的数据同步(如梯度聚合、参数更新),减少通信开销,提升训练效率。
使用场景
当前支持在以下2种故障场景下使用算子级在线恢复功能。
- 对于芯片网络相关故障,当算子重传成功时,Volcano会将任务作为亚健康任务处理。当算子重传失败时,Volcano触发重调度处理。
- 对于灵衢总线设备相关故障,HCCL执行算子级在线恢复后,Volcano会将任务作为亚健康任务处理。
使用约束
- 本特性不支持MC2开启场景。
- 不支持开启watchdog功能。
算子级在线恢复支持的产品和框架
产品系列 |
产品名称 |
训练框架 |
---|---|---|
Atlas A3 训练系列产品 |
Atlas 900 A3 SuperPoD 集群算力系统 |
- |
父主题: 故障处理