昇腾社区首页
中文
注册
开发者
下载

亚健康热切

训练任务配置为亚健康热切策略(hotSwitch)后,当发生亚健康故障时,拉起备份节点后暂停训练进程,再使用备份节点重新拉起训练任务。

使用约束

  • 仅支持PyTorch配合MindSpeed-LLM master版本使用,版本配套请参见MindSpeed-LLM
  • 仅支持acjob类型训练任务。
  • 训练任务未出迭代时触发热切,可能会造成MindIO阻塞,最后触发Job级别重调度。
  • 当训练任务的annotation中hccl/rankIndex字段为0的Pod发生亚健康故障时,不支持触发亚健康热切。
  • 以下异常情况会回退至Job级别重调度:
    • 备份Pod拉起后,训练暂停失败。
    • 备份Pod拉起后,MindCluster等待上报训练暂停状态超时(15分钟)。
    • 备份Pod运行失败。
    • 原Pod删除后,训练恢复失败。
    • 原Pod删除后,MindCluster等待上报训练恢复状态超时(15分钟)。

支持的产品型号和AI框架

表1 亚健康热切支持的产品和框架

产品类型

硬件形态

训练框架

Atlas A2 训练系列产品

Atlas 800T A2 训练服务器

PyTorch

Atlas A3 训练系列产品

Atlas 800T A3 超节点服务器

PyTorch

亚健康热切原理

图1 原理图

在以上原理图中,各个步骤的说明如下。

  1. ClusterD通过Ascend Device Plugin感知到亚健康故障。
  2. ClusterD分析是否配置为亚健康热切策略。
  3. ClusterD通知Ascend Operator拉起备份Pod。
  4. Volcano调度备份Pod。
  5. 备份Pod向MindIO Controller发起注册。
  6. MindIO Controller下发训练暂停通知。
  7. MindIO Controller通知ClusterD训练暂停。
  8. ClusterD通知Volcano删除故障Pod。
  9. ClusterD通知MindIO恢复训练。