配置文件说明
针对灵衢总线设备超节点故障的不同级别进行分级处理时,Ascend Device Plugin组件会获取到当前故障的故障码,根据SwitchFaultCode.json中故障码配置的故障级别,对故障进行相应处理。SwitchFaultCode.json为系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改故障码对应的故障级别,可以通过由faultCode.json和SwitchFaultCode.json创建的mindx-dl-fault-config文件实现。

只有Atlas A3 训练系列产品存在灵衢总线设备,该设备的故障码可以查看SwitchFaultCode.json文件。
SwitchFaultCode.json中的故障级别
断点续训针对灵衢总线设备超节点故障的不同级别进行分级处理。若用户需要修改故障码的故障级别,操作指导请参见(可选)配置灵衢总线设备故障级别。
Ascend Device Plugin从驱动获取到故障码后,将根据故障码对设备及业务的影响将故障划分为以下五种级别并进行相应的重调度处理,详细说明请参见表1。
故障类型 |
说明 |
重调度处理 |
---|---|---|
NotHandleFault |
暂不影响业务,可以自行恢复,无需处理 |
暂不处理 |
SubHealthFault |
根据任务yaml中配置的subHealthyStrategy参数取值进行处理,处理策略如下:
|
当芯片出现亚健康故障时,需根据配置yaml策略决定是否忽略亚健康故障或进行重调度 说明:
如果后续芯片出现其他级别故障,此时 SubHealthFault处理策略不影响其他级别的故障处理。 |
ResetFault |
业务运行失败 |
停止当前训练任务,隔离节点,进行任务重调度 |
SeparateFault |
业务运行失败,需更换器件或板卡 |
父主题: 灵衢总线设备故障