借轨通信任务暂停与回切
使用借轨回切功能时,NPU芯片的组网关系可参考《Ascend Training Solution 25.1.RC1 组网指南(Atlas A3训练产品)》中的“网络平面介绍 > 参数面网络 > 端口对接策略”章节。
了解借轨通信任务暂停与回切功能的详细配置方法,请参见配置借轨通信任务暂停与回切。
- 调用借轨回切接口执行借轨回切动作前,请先了解NPU芯片组网关系,保证目标NPU的网络链路正常,如果目标NPU为linkdown状态会导致操作失败。
- 以上述组网指南中的接口对接关系为例,对于以下几种情况,调用SwitchNicTrack接口时,指定的dev与op如下:
- 若将device0,device8从QDD8借轨切到QDD7,传参dev为[device0 ,device8],op为[true,true]
- 若将device0,device8从QDD7回切到QDD8,传参dev为[device0 ,device8],op为[false,false]
- 如果单独将device0从QDD8的PortA借轨切到QDD7的PortA,传参dev为[device0],op为[true]
- 如果单独将device0从QDD7的PortA回切到QDD8的PortA,传参dev为[device0],op为[false]
- 如果将Leaf1下的全部device借轨切到Leaf2下,传参dev为[device0,device8,device2,device10,device4,device12,device6,device14 ],op为[true,true,true,true,true,true,true,true]
- 如果将Leaf2下的全部device回切到Leaf1下,传参dev为[device0,device8,device2,device10,device4,device12,device6,device14 ],op为[false,false,false,false,false,false,false,false]
图1 接口对接关系
使用场景
当前支持在以下2种场景下使用借轨通信任务暂停与回切功能。
- 交换机升级场景:人工触发借轨后升级交换机,再回切。
- 故障处理场景:发生借轨的故障端口在修复完成后,再做人工回切。
使用约束
- 请在训练正常迭代后,再进行借轨或回切指令的下发。
- 确保已开启进程级恢复相关功能特性。
- 对于MindSpore训练框架,需要在启动TaskD Manager前设置export TASKD_PROCESS_ENABLE="on"。
支持的产品型号和AI框架
|
产品系列 |
产品名称 |
训练框架 |
|---|---|---|
|
Atlas A3 训练系列产品 |
|
|
借轨通信任务暂停与回切原理
图2 原理图
在以上原理图中,各个步骤的说明如下。
- AI平台集成ClusterD,调用ClusterD的gRPC接口下发切换操作,指定需要切换的NPU卡。
- ClusterD通知MindIO暂停训练。
- TaskD Manager通知所有TaskD Worker调用训练框架接口执行切换操作。
- 训练框架按照通信域逐一调用CANN接口执行切换操作。
- ClusterD判断所有NPU卡的切换操作完成后,再由TaskD通知MindIO在切换完成后继续执行下一个Step训练。
适配功能点
在借轨通信任务暂停与回切中,框架首先初始化MindIO服务,启动服务后优化器更新时会上报对应状态到MindIO。通过主动调用优雅暂停机制,完成当前卡上任务暂停和任务切换。集群大脑需提供对外接口,接受切换指令并管理借轨通信流程。
对于非MindSpeed-LLM、MindCluster平台用户,需在框架侧完成表2的功能适配。
父主题: 故障处理