昇腾社区首页
中文
注册

断点续训

功能特点

当训练任务出现故障时,将任务重调度到健康设备上继续训练或者对故障芯片进行自动恢复。

  • 故障发现:通过Ascend Device PluginVolcanoClusterDNodeD四个组件,发现任务故障。
  • 故障处理:故障发生后,根据上报的故障信息进行故障处理。分为以下两种模式。
    • 重调度模式:故障发生后将任务重调度到其他健康设备上继续运行。
    • 优雅容错模式:当训练时芯片出现故障后,系统将尝试对故障芯片进行自动恢复。
  • 训练重启:在任务重新调度之后,训练任务会使用故障前自动保存的ckpt,重新拉起训练任务继续训练。

所需组件

  • Volcano
  • Ascend Operator
  • Ascend Device Plugin
  • Ascend Docker Runtime
  • NodeD
  • ClusterD
  • Elastic Agent

使用说明

  1. 安装组件请参考安装部署章节进行操作。
  2. 特性使用指导请参考断点续训章节进行操作。