断点续训
功能特点
当训练任务出现故障时,将任务重调度到健康设备上继续训练或者对故障芯片进行自动恢复。
- 故障发现:通过MindCluster Ascend Device Plugin、MindCluster Volcano、MindCluster ClusterD和MindCluster NodeD四个组件,发现任务故障。
- 故障处理:故障发生后,根据上报的故障信息进行故障处理。分为以下两种模式。
- 重调度模式:故障发生后将任务重调度到其他健康设备上继续运行。
- 优雅容错模式:当训练时芯片出现故障后,系统将尝试对故障芯片进行自动恢复。
- 训练重启:在任务重新调度之后,训练任务会使用故障前自动保存的ckpt,重新拉起训练任务继续训练。
所需组件
- MindCluster Volcano
- MindCluster HCCL Controller或MindCluster Ascend Operator
- MindCluster Ascend Device Plugin
- MindCluster Ascend Docker Runtime
- MindCluster NodeD
- MindCluster ClusterD
- MindCluster Elastic Agent