算子级在线恢复
Atlas A3 训练系列产品支持在发生参数面网络故障时,HCCL会执行通信算子重传。在故障进程不退出的情况下,算子级在线恢复可容忍更长时间的网络异常,训练任务不中断。
- 对于芯片网络相关故障,当算子重传成功时,Volcano会将任务作为亚健康任务处理。当算子重传失败时,Volcano触发重调度处理。
- 对于灵衢总线设备相关故障,HCCL执行算子级在线恢复后,Volcano会将任务作为亚健康任务处理。
了解算子级在线恢复的关键配置步骤,请参见配置算子级在线恢复。
算子级在线恢复支持的产品和框架
产品系列 |
产品名称 |
---|---|
Atlas A3 训练系列产品 |
Atlas 900 A3 SuperPoD 集群算力系统 |
父主题: 故障处理