功能特点
断点续训特性在Kubernetes(以下简称K8s)集群中训练任务出现故障时,使系统能够感知故障,将故障资源进行处理或隔离,并根据训练任务需要重新分配资源,通过之前保存的周期性的ckpt重新拉起训练任务继续训练,缩短损失时间。
断点续训主要分为故障发现、故障处理和训练重启三个阶段,每个阶段的说明如下。
- 故障发现:通过Ascend Device Plugin、Volcano、ClusterD和NodeD四个组件提供的能力检查节点、芯片、参数面网络或业务面的健康状态和故障类型。
- 故障处理:故障发生后,根据上报的故障信息进行故障处理。
- 故障重调度模式存在以下级别。
- Job级别重调度:每次故障会停止所有的Pod,重新创建并重调度所有Pod,重启训练任务。
- Pod级别重调度:每次故障只停止故障相关的Pod,重新创建并重调度故障相关的Pod后,重启训练任务。不能恢复则回退至Job级重调度模式。
- 优雅容错功能:当用户训练时没有备用资源或者期望设备自动恢复时,可以选择使用优雅容错功能。即当训练时芯片设备出现故障后,系统将尝试对故障芯片进行自动恢复,如果可以恢复则在保持Pod运行状态下,将任务原地拉起继续训练,不能恢复则回退至重调度模式。
- 故障重调度模式存在以下级别。
- 训练重启:在任务重新调度之后,训练任务使用故障前自动保存的CheckPoint,重新拉起训练任务继续训练,缩短训练损失时间。
重调度模式支持的产品和框架
产品类型 |
硬件形态 |
训练框架 |
|---|---|---|
Atlas 训练系列产品 |
|
|
Atlas A2 训练系列产品 |
|
|
Atlas A3 训练系列产品 |
Atlas 900 A3 SuperPoD 集群算力系统 |
- |
优雅容错功能支持的产品和框架
产品系列 |
产品名称 |
训练框架 |
|---|---|---|
Atlas 训练系列产品 |
|
|
Atlas A2 训练系列产品 |
|
|
Atlas A3 训练系列产品 |
Atlas 900 A3 SuperPoD 集群算力系统 |
- 优雅容错模式支持Atlas 800 训练服务器的芯片工作模式为SMP模式,训练任务规模为4N及8N,N为训练节点数。查询和设置NPU芯片工作模式的详细介绍请参见《Atlas 800 训练服务器 iBMC用户指南(型号 9000)》中的“查询和设置NPU芯片工作模式(npuworkmode)”章节。
- 优雅容错模式支持Atlas 800T A2 训练服务器和Atlas 900 A2 PoD 集群基础单元的训练任务规模为8N,N为训练节点数。
- 优雅容错模式支持Atlas 900 A3 SuperPoD 集群算力系统的训练任务规模单机场景为2、4、6、8、10、12、14、16;分布式场景为16N,N为训练节点数。
父主题: 特性说明