弹性训练
功能特点
训练节点出现故障(启用NodeD的节点网络故障或者芯片故障)后,集群调度组件将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数,重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。
所需组件
- Ascend Device Plugin
- Ascend Docker Runtime
- Volcano
- HCCL Controller
- NodeD
- Resilience Controller
- ClusterD
父主题: 基础调度
训练节点出现故障(启用NodeD的节点网络故障或者芯片故障)后,集群调度组件将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数,重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。