算子级在线恢复

Atlas A3 训练系列产品支持在发生参数面网络故障时,HCCL会执行通信算子重传。在故障进程不退出的情况下,算子级在线恢复可容忍更长时间的网络异常,训练任务不中断。

了解算子级在线恢复的关键配置步骤,请参见配置算子级在线恢复

算子级在线恢复支持的产品和框架

表1 支持的产品和框架

产品系列

产品名称

Atlas A3 训练系列产品

Atlas 900 A3 SuperPoD 集群算力系统