断点续训
功能特点
当训练任务出现故障时,将任务重调度到健康设备上继续训练或者对故障芯片进行自动恢复。
- 故障发现:通过Ascend Device Plugin、Volcano、ClusterD和NodeD四个组件,发现任务故障。
- 故障处理:故障发生后,根据上报的故障信息进行故障处理。分为以下两种模式。
- 重调度模式:故障发生后将任务重调度到其他健康设备上继续运行。
- 优雅容错模式:当训练时芯片出现故障后,系统将尝试对故障芯片进行自动恢复。
- 训练重启:在任务重新调度之后,训练任务会使用故障前自动保存的ckpt,重新拉起训练任务继续训练。
所需组件
- Volcano
- Ascend Operator
- Ascend Device Plugin
- Ascend Docker Runtime
- NodeD
- ClusterD
- Elastic Agent
父主题: 特性介绍