昇腾社区首页
中文
注册

配置文件说明

针对灵衢总线设备超节点故障的不同级别进行分级处理时,Ascend Device Plugin组件会获取到当前故障的故障码,根据SwitchFaultCode.json中故障码配置的故障级别,对故障进行相应处理。SwitchFaultCode.json为系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改故障码对应的故障级别,可以通过由faultCode.json和SwitchFaultCode.json创建的mindx-dl-fault-config文件实现。

只有Atlas A3 训练系列产品存在灵衢总线设备,该设备的故障码可以查看SwitchFaultCode.json文件

SwitchFaultCode.json中的故障级别

断点续训针对灵衢总线设备超节点故障的不同级别进行分级处理。若用户需要修改故障码的故障级别,操作指导请参见(可选)配置灵衢总线设备故障级别

Ascend Device Plugin从驱动获取到故障码后,将根据故障码对设备及业务的影响将故障划分为以下五种级别并进行相应的重调度处理,详细说明请参见表1

表1 故障级别及处理说明

故障类型

说明

重调度处理

NotHandleFault

暂不影响业务,可以自行恢复,无需处理

暂不处理

SubHealthFault

根据任务yaml中配置的subHealthyStrategy参数取值进行处理,处理策略如下:

  • ignore:忽略该亚健康节点,后续任务会调度到该节点。
  • graceExit:不使用亚健康节点,并保存临终ckpt文件后,进行重调度,后续任务不会调度到该节点。
  • forceExit:不使用亚健康节点,不保存任务直接退出,进行重调度,后续任务不会调度到该节点。
  • 默认取值为ignore。

当芯片出现亚健康故障时,需根据配置yaml策略决定是否忽略亚健康故障或进行重调度

说明:

如果后续芯片出现其他级别故障,此时

SubHealthFault处理策略不影响其他级别的故障处理。

ResetFault

业务运行失败

停止当前训练任务,隔离节点,进行任务重调度

SeparateFault

业务运行失败,需更换器件或板卡