亚健康热切
训练任务配置为亚健康热切策略(hotSwitch)后,当发生亚健康故障时,拉起备份节点后暂停训练进程,再使用备份节点重新拉起训练任务。
使用约束
- 仅支持PyTorch配合MindSpeed-LLM master版本使用,版本配套请参见MindSpeed-LLM。
- 仅支持acjob类型训练任务。
- 训练任务未出迭代时触发热切,可能会造成MindIO阻塞,最后触发Job级别重调度。
- 当训练任务的annotation中hccl/rankIndex字段为0的Pod发生亚健康故障时,不支持触发亚健康热切。
- 以下异常情况会回退至Job级别重调度:
- 备份Pod拉起后,训练暂停失败。
- 备份Pod拉起后,MindCluster等待上报训练暂停状态超时(15分钟)。
- 备份Pod运行失败。
- 原Pod删除后,训练恢复失败。
- 原Pod删除后,MindCluster等待上报训练恢复状态超时(15分钟)。
支持的产品型号和AI框架
产品类型 |
硬件形态 |
训练框架 |
|---|---|---|
Atlas A2 训练系列产品 |
Atlas 800T A2 训练服务器 |
PyTorch |
Atlas A3 训练系列产品 |
Atlas 800T A3 超节点服务器 |
PyTorch |
亚健康热切原理
图1 原理图


在以上原理图中,各个步骤的说明如下。
- ClusterD通过Ascend Device Plugin感知到亚健康故障。
- ClusterD分析是否配置为亚健康热切策略。
- ClusterD通知Ascend Operator拉起备份Pod。
- Volcano调度备份Pod。
- 备份Pod向MindIO Controller发起注册。
- MindIO Controller下发训练暂停通知。
- MindIO Controller通知ClusterD训练暂停。
- ClusterD通知Volcano删除故障Pod。
- ClusterD通知MindIO恢复训练。
父主题: 故障处理