借轨通信任务暂停与回切
Atlas A3 训练系列产品场景下,MindCluster集群调度组件提供训练任务借轨通信的暂停与回切功能。即在训练过程中,使用主动借轨回切接口,可自由切换NPU芯片使用的RoCE网口。
使用借轨回切功能时,NPU芯片的组网关系可参考《Ascend Training Solution 25.1.RC1 组网指南(Atlas A3训练产品)》中的“网络平面介绍 > 参数面网络 > 端口对接策略”章节。
了解借轨通信任务暂停与回切功能的详细配置方法,请参见配置借轨通信任务暂停与回切。

- 调用借轨回切接口执行借轨回切动作前,请先了解NPU芯片组网关系,保证目标NPU的网络链路正常,如果目标NPU为linkdown状态会导致操作失败。
- 以上述组网指南中的接口对接关系为例,对于以下几种情况,调用SwitchNicTrack接口时,指定的dev与op如下:
- 若将device0,device8 执行从QDD8借轨切到QDD7,传参dev为[device0 ,device8],op为[true,true]
- 若将device0,device8从QDD7回切到QDD8,传参dev为[device0 ,device8],op为[false,false]
- 如果单独将device0 从QDD8的PortA切换到借轨切到QDD7的PortA,传参dev为[device0],op为[true]
- 如果单独将device0 从QDD7的PortA回切到QDD8的PortA,传参dev为[device0],op为[false]
- 如果将Leaf1下的全部device借轨到Leaf2下,传参dev为[device0,device8,device2,device10,device4,device12,device6,device14 ],op为[true,true,true,true,true,true,true,true]
- 如果将Leaf2下的全部device回切到Leaf1下,传参dev为[device0,device8,device2,device10,device4,device12,device6,device14 ],op为[false,false,false,false,false,false,false,false]
图1 接口对接关系
使用场景
当前支持在以下2种场景下使用借轨通信任务暂停与回切功能。
- 交换机升级场景:人工触发借轨后升级交换机,再回切。
- 故障处理场景:发生借轨的故障端口在修复完成后,再做人工回切。
使用约束
请在训练正常迭代后,再进行借轨或回切命令的下发。
支持的产品型号和AI框架
产品系列 |
产品名称 |
训练框架 |
---|---|---|
Atlas A3 训练系列产品 |
|
|
父主题: 故障处理