算子级在线恢复
Atlas A3 训练系列产品支持在发生参数面网络故障时,HCCL会执行通信算子重传。在故障进程不退出的情况下,算子级在线恢复可容忍更长时间的网络异常,训练任务不中断。
- 对于芯片网络相关故障,当算子重传成功时,Volcano会将任务作为亚健康任务处理。当算子重传失败时,Volcano触发重调度处理。
 - 对于灵衢总线设备相关故障,HCCL执行算子级在线恢复后,Volcano会将任务作为亚健康任务处理。
 
了解算子级在线恢复的关键配置步骤,请参见配置算子级在线恢复。
算子级在线恢复支持的产品和框架
产品系列  | 
产品名称  | 
|---|---|
Atlas A3 训练系列产品  | 
Atlas 900 A3 SuperPoD 集群算力系统  | 
父主题: 故障处理