自定义设备故障

断点续训针对总线设备故障的不同级别进行分级处理。若用户需要修改故障码的故障级别,操作指导请参见(可选)配置总线设备故障级别

Ascend Device Plugin从驱动获取到故障码后,将根据故障码对设备及业务的影响将故障划分为以下五种级别并进行相应的重调度处理,详细说明请参见表1

表1 故障级别及处理说明

故障类型

说明

重调度处理

NotHandleFault

暂不影响业务,可以自行恢复,无需处理

暂不处理

SubHealthFault

影响业务运行性能,需要排查亚健康原因

当出现亚健康故障时,需根据表1中subHealthyStrategy参数所指定的亚健康策略决定是否忽略亚健康故障或进行重调度。

ResetFault

业务运行失败

停止当前训练任务,隔离节点,进行任务重调度

SeparateFault

业务运行失败,需更换器件或板卡