昇腾社区首页
中文
注册
开发者
下载

借轨通信任务暂停与回切

Atlas A3 训练系列产品 场景下,MindCluster集群调度组件提供训练任务借轨通信的暂停与回切功能。即在训练过程中,使用主动借轨回切接口,可自由切换NPU芯片使用的RoCE网口。

使用借轨回切功能时,NPU芯片的组网关系可参考《Ascend Training Solution 25.1.RC1 组网指南(Atlas A3训练产品)》中的“网络平面介绍 > 参数面网络 > 端口对接策略章节。

了解借轨通信任务暂停与回切功能的详细配置方法,请参见配置借轨通信任务暂停与回切

  • 调用借轨回切接口执行借轨回切动作前,请先了解NPU芯片组网关系,保证目标NPU的网络链路正常,如果目标NPU为linkdown状态会导致操作失败。
  • 以上述组网指南中的接口对接关系为例,对于以下几种情况,调用SwitchNicTrack接口时,指定的dev与op如下:
    1. 若将device0,device8从QDD8借轨切到QDD7,传参dev为[device0 ,device8],op为[true,true]
    2. 若将device0,device8从QDD7回切到QDD8,传参dev为[device0 ,device8],op为[false,false]
    3. 如果单独将device0从QDD8的PortA借轨切到QDD7的PortA,传参dev为[device0],op为[true]
    4. 如果单独将device0从QDD7的PortA回切到QDD8的PortA,传参dev为[device0],op为[false]
    5. 如果将Leaf1下的全部device借轨切到Leaf2下,传参dev为[device0,device8,device2,device10,device4,device12,device6,device14 ],op为[true,true,true,true,true,true,true,true]
    6. 如果将Leaf2下的全部device回切到Leaf1下,传参dev为[device0,device8,device2,device10,device4,device12,device6,device14 ],op为[false,false,false,false,false,false,false,false]
    图1 接口对接关系

使用场景

当前支持在以下2种场景下使用借轨通信任务暂停与回切功能。

  • 交换机升级场景:人工触发借轨后升级交换机,再回切。
  • 故障处理场景:发生借轨的故障端口在修复完成后,再做人工回切。

使用约束

  • 请在训练正常迭代后,再进行借轨或回切指令的下发。
  • 确保已开启进程级恢复相关功能特性。
  • 对于MindSpore训练框架,需要在启动TaskD Manager前设置export TASKD_PROCESS_ENABLE="on"。

支持的产品型号和AI框架

表1 支持的产品和框架

产品系列

产品名称

训练框架

Atlas A3 训练系列产品

  • Atlas 900 A3 SuperPoD 超节点
  • Atlas 800T A3 超节点服务器
  • MindSpore
  • PyTorch

借轨通信任务暂停与回切原理

图2 原理图

在以上原理图中,各个步骤的说明如下。

  1. AI平台集成ClusterD,调用ClusterD的gRPC接口下发切换操作,指定需要切换的NPU卡。
  2. ClusterD通知MindIO暂停训练。
  3. TaskD Manager通知所有TaskD Worker调用训练框架接口执行切换操作。
  4. 训练框架按照通信域逐一调用CANN接口执行切换操作。
  5. ClusterD判断所有NPU卡的切换操作完成后,再由TaskD通知MindIO在切换完成后继续执行下一个Step训练。

适配功能点

在借轨通信任务暂停与回切中,框架首先初始化MindIO服务,启动服务后优化器更新时会上报对应状态到MindIO。通过主动调用优雅暂停机制,完成当前卡上任务暂停和任务切换。集群大脑需提供对外接口,接受切换指令并管理借轨通信流程。

对于非MindSpeed-LLM、MindCluster平台用户,需在框架侧完成表2的功能适配。

表2 借轨通信任务暂停与回切框架适配功能点

适配功能点

功能简述

适配组件

参考链接

初始化拉起

训练框架初始化时拉起MindIO服务。

分布式训练框架

对接非MindSpeed-LLM框架

上报优化器更新状态

优化器更新前上报优化器更新的开始和结束状态。

优雅暂停

训练迭代循环最尾部增加MindIO函数调用,实现主动暂停功能。

借轨切换过程管理

提供借轨切换请求下发能力,控制训练进程暂停与重启。

AI平台

链接