配置文件说明
断点续训针对公共故障的不同级别进行分级处理。ClusterD组件会获取到当前故障的故障码,根据publicFaultConfiguration.json文件中故障码配置的故障级别,对故障进行相应处理。特殊情况下,若ClusterD收到了无法识别的故障码(未保存在配置文件中),会将此故障丢弃。
publicFaultConfiguration.json为公共故障的系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改公共故障的级别和发送方,可以通过在/user1/mindx-dl/clusterd写入自定义配置文件publicCustomization.json实现。该文件路径支持配置,配置方式如下所示。

- 文件publicCustomization.json在容器内路径为/user1/mindx-dl/clusterd,不支持修改,不支持软链接;主机路径默认为/user1/mindx-dl/clusterd。
- 主机路径可由用户根据实际情况自行配置:在ClusterD的启动YAML中修改挂载卷名称为config-clusterd的主机挂载路径。
- 多master场景下,建议每个master节点上都同步一份最新的publicCustomization.json文件。避免重启ClusterD后,ClusterD被调度到其他master节点,从而导致自定义故障配置文件丢失的问题。
故障级别 |
故障处理策略 |
重调度处理 |
优雅容错处理 |
---|---|---|---|
NotHandleFault |
无需处理 |
暂不处理 |
暂不处理 |
SeparateNPU |
无法恢复,需要隔离芯片 |
隔离芯片,进行任务重调度。 |
隔离芯片,进行任务重调度。 |
SubHealthFault |
根据任务YAML中配置的subHealthyStrategy参数取值进行处理,处理策略如下: |
当芯片出现亚健康故障时,需根据任务YAML配置示例策略决定是否忽略亚健康故障或进行重调度 说明:
如果后续芯片出现其他级别故障,此时SubHealthFault处理策略不影响其他级别的故障处理。 |
根据策略决定是否忽略亚健康故障或进行重调度 |
参数名称 |
说明 |
---|---|
NotHandleFaultCodes |
故障级别为NotHandleFault(无需处理)的故障码。 |
SubHealthFaultCodes |
故障级别为SubHealthFault(亚健康)的故障码。 |
SeparateNPUCodes |
故障级别为SeparateNPU(无法恢复,需要隔离芯片)的故障码。 |
故障码说明
公共故障的故障码为9位,说明如下。
位数 |
描述 |
取值 |
---|---|---|
1 |
故障类型 |
0:芯片故障 1:节点故障 2:网络故障 3:存储故障 |
2 |
故障默认的级别 |
0: NotHandleFault 1: SubHealthFault 2: SeparateNPU |
3、4 |
预留扩展位 |
暂为00 |
5 |
第6-9位的故障码是否为用户自定义,避免冲突 |
0:发布包中定义 1:用户自定义 |
6-9 |
具体的十进制故障码 |
示例:1001 |
示例如下: 0100 01001:芯片故障,SubHealthFault,发布包中定义,故障1001。 1000 11002:节点故障,NotHandleFault,用户自定义,故障1002。 2200 01003:网络故障,SeparateNPU,发布包中定义,故障1003。 |
已支持的公共故障
故障码 |
故障说明 |
默认故障级别 |
---|---|---|
010001001 |
光链路脏污(芯片故障) |
SubHealthFault |
210001007 |
光链路脏污(网络故障) |
SubHealthFault |
220001001 |
NPU卡HCCS网络故障 |
SeparateNPU |
010001004 |
光链路松动(芯片故障) |
SubHealthFault |
210001008 |
光链路松动(网络故障) |
SubHealthFault |
310001005 |
DPC客户端失效 |
SubHealthFault |
200001006 |
疑似光链路亚健康 |
NotHandleFault |
210001009 |
光模块器件亚健康 |
SubHealthFault |
220001002 |
备份超节点场景下,调度使用不存在的备份框资源。 |
SeparateNPU |
220001003 |
备份框资源端口故障 |
SeparateNPU |
220001004 |
备份框任务ID占用冲突 |
SeparateNPU |
220001005 |
NetMind失效 |
SeparateNPU |
220001006 |
疑似备份框链路端口部分失效 |
SeparateNPU |
220001007 |
光链路调整失败 |
SeparateNPU |