弹性训练
功能特点
训练节点出现故障后,
集群调度组件
将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数,重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。
所需组件
Ascend Device Plugin
Ascend Docker Runtime
Ascend Operator
Volcano
NodeD
Resilience Controller
ClusterD
使用说明
安装组件请参考
安装部署
章节进行操作。
特性使用指导请参考
弹性训练
章节进行操作。
父主题:
基础调度