功能特点

断点续训特性在Kubernetes（以下简称K8s）集群中训练任务出现故障时，使系统能够感知故障，将故障资源进行处理或隔离，并根据训练任务需要重新分配资源，通过之前保存的周期性的ckpt重新拉起训练任务继续训练，缩短损失时间。

断点续训主要分为故障发现、故障处理和训练重启三个阶段，每个阶段的说明如下。

故障发现：通过Ascend Device Plugin、Volcano、ClusterD和NodeD四个组件提供的能力检查节点、芯片、参数面网络或业务面的健康状态和故障类型。
故障处理：故障发生后，根据上报的故障信息进行故障处理。
1. 故障重调度模式存在以下级别。
  - Job级别重调度：每次故障会停止所有的Pod，重新创建并重调度所有Pod，重启训练任务。
  - Pod级别重调度：每次故障只停止故障相关的Pod，重新创建并重调度故障相关的Pod后，重启训练任务。不能恢复则回退至Job级重调度模式。
2. 优雅容错功能：当用户训练时没有备用资源或者期望设备自动恢复时，可以选择使用优雅容错功能。即当训练时芯片设备出现故障后，系统将尝试对故障芯片进行自动恢复，如果可以恢复则在保持Pod运行状态下，将任务原地拉起继续训练，不能恢复则回退至重调度模式。
训练重启：在任务重新调度之后，训练任务使用故障前自动保存的CheckPoint，重新拉起训练任务继续训练，缩短训练损失时间。
1. 由框架实现保存和加载CheckPoint。
2. 通过MindIO组件提供的能力，可以针对大模型训练中的故障恢复和checkPoint保存及加载进行加速。
  1. 临终CheckPoint恢复：主要针对大模型训练中的故障恢复加速，通过临终CheckPoint数据恢复训练，减少故障造成的训练迭代损失。请参见故障恢复加速章节。
  2. 异步CheckPoint恢复：主要针对大模型训练中的CheckPoint保存及加载进行加速，将CheckPoint的数据先写入训练服务器的内存系统，再异步写入后端的可靠性存储设备，减少每次保存CheckPoint的训练损失。请参见CheckPoint保存与加载优化章节。

重调度模式支持的产品和框架

表1 重调度支持的产品和框架
产品类型	硬件形态	训练框架
Atlas 训练系列产品	Atlas 800 训练服务器（型号 9000）（NPU满配） Atlas 800 训练服务器（型号 9010）（NPU满配） Atlas 800 训练服务器（型号 9000）（NPU半配） Atlas 800 训练服务器（型号 9010）（NPU半配）	MindSpore TensorFlow PyTorch
Atlas A2 训练系列产品	Atlas 800T A2 训练服务器 Atlas 200T A2 Box16 异构子框 Atlas 900 A2 PoD 集群基础单元	MindSpore TensorFlow PyTorch
Atlas A3 训练系列产品	Atlas 900 A3 SuperPoD 集群算力系统	-

若Atlas 800 训练服务器的芯片工作模式为SMP模式，且每个Pod申请的NPU数量为1、2时，不支持使用重调度模式。查询和设置NPU芯片工作模式的详细介绍请参见《Atlas 800 训练服务器 iBMC用户指南（型号 9000）》中的“查询和设置NPU芯片工作模式（npuworkmode）”章节。

优雅容错功能支持的产品和框架

表2 优雅容错支持的产品和框架
产品系列	产品名称	训练框架
Atlas 训练系列产品	Atlas 800 训练服务器（型号 9000）（NPU满配） Atlas 800 训练服务器（型号 9010）（NPU满配） Atlas 800 训练服务器（型号 9000）（NPU半配） Atlas 800 训练服务器（型号 9010）（NPU半配）	MindSpore PyTorch
Atlas A2 训练系列产品	Atlas 800T A2 训练服务器 Atlas 900 A2 PoD 集群基础单元	MindSpore PyTorch
Atlas A3 训练系列产品	Atlas 900 A3 SuperPoD 集群算力系统	-

优雅容错模式支持Atlas 800 训练服务器的芯片工作模式为SMP模式，训练任务规模为4N及8N，N为训练节点数。查询和设置NPU芯片工作模式的详细介绍请参见《Atlas 800 训练服务器 iBMC用户指南（型号 9000）》中的“查询和设置NPU芯片工作模式（npuworkmode）”章节。
优雅容错模式支持Atlas 800T A2 训练服务器和Atlas 900 A2 PoD 集群基础单元的训练任务规模为8N，N为训练节点数。
优雅容错模式支持Atlas 900 A3 SuperPoD 集群算力系统的训练任务规模单机场景为2、4、6、8、10、12、14、16；分布式场景为16N，N为训练节点数。

父主题： 特性说明