昇腾社区首页
中文
注册

弹性训练

功能特点

训练节点出现故障后,集群调度组件将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数,重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。

所需组件

  • Ascend Device Plugin
  • Ascend Docker Runtime
  • Ascend Operator
  • Volcano
  • NodeD
  • Resilience Controller
  • ClusterD

使用说明

  1. 安装组件请参考安装部署章节进行操作。
  2. 特性使用指导请参考弹性训练章节进行操作。