昇腾社区首页
中文
注册

配置文件说明

断点续训针对公共故障的不同级别进行分级处理。ClusterD组件会获取到当前故障的故障码,根据publicFaultConfiguration.json文件中故障码配置的故障级别,对故障进行相应处理。特殊情况下,若ClusterD收到了无法识别的故障码(未保存在配置文件中),会将此故障丢弃。

publicFaultConfiguration.json为公共故障的系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改公共故障的级别和发送方,可以通过在/user1/mindx-dl/clusterd写入自定义配置文件publicCustomization.json实现。该文件路径支持配置,配置方式如下所示。

  • 文件publicCustomization.json在容器内路径为/user1/mindx-dl/clusterd,不支持修改,不支持软链接;主机路径默认为/user1/mindx-dl/clusterd。
  • 主机路径可由用户根据实际情况自行配置:在ClusterD的启动YAML中修改挂载卷名称为config-clusterd的主机挂载路径。
  • 多master场景下,建议每个master节点上都同步一份最新的publicCustomization.json文件。避免重启ClusterD后,ClusterD被调度到其他master节点,从而导致自定义故障配置文件丢失的问题。
表1 故障级别及处理说明

故障级别

故障处理策略

重调度处理

优雅容错处理

NotHandleFault

无需处理

暂不处理

暂不处理

SeparateNPU

无法恢复,需要隔离芯片

隔离芯片,进行任务重调度。

隔离芯片,进行任务重调度。

SubHealthFault

根据任务YAML中配置的subHealthyStrategy参数取值进行处理,处理策略如下:

  • ignore:忽略该亚健康节点,后续任务会调度到该节点。
  • graceExit:不使用亚健康节点,并保存临终ckpt文件后,进行重调度,后续任务不会调度到该节点。

    使用graceExit策略时,需保证训练框架能够接收SIGTERM信号并保存ckpt文件。

  • forceExit:不使用亚健康节点,不保存任务直接退出,进行重调度,后续任务不会调度到该节点。
  • 默认取值为ignore。

当芯片出现亚健康故障时,需根据任务YAML配置示例策略决定是否忽略亚健康故障或进行重调度

说明:

如果后续芯片出现其他级别故障,此时SubHealthFault处理策略不影响其他级别的故障处理。

根据策略决定是否忽略亚健康故障或进行重调度

表2 publicFaultConfiguration.json字段说明

参数名称

说明

publicFaultCode

公共故障码相关配置。

publicFaultResource

公共故障发送方配置。

表3 publicFaultCode字段说明

参数名称

说明

NotHandleFaultCodes

故障级别为NotHandleFault(无需处理)的故障码。

SubHealthFaultCodes

故障级别为SubHealthFault(亚健康)的故障码。

SeparateNPUCodes

故障级别为SeparateNPU(无法恢复,需要隔离芯片)的故障码。

故障码说明

公共故障的故障码为9位,说明如下。

表4 故障码说明

位数

描述

取值

1

故障类型

0:芯片故障

1:节点故障

2:网络故障

3:存储故障

2

故障默认的级别

0: NotHandleFault

1: SubHealthFault

2: SeparateNPU

3、4

预留扩展位

暂为00

5

第6-9位的故障码是否为用户自定义,避免冲突

0:发布包中定义

1:用户自定义

6-9

具体的十进制故障码

示例:1001

示例如下:

0100 01001:芯片故障,SubHealthFault,发布包中定义,故障1001。

1000 11002:节点故障,NotHandleFault,用户自定义,故障1002。

2200 01003:网络故障,SeparateNPU,发布包中定义,故障1003。

已支持的公共故障

表5 已支持的公共故障

故障码

故障说明

默认故障级别

010001001

光链路脏污(芯片故障)

SubHealthFault

210001007

光链路脏污(网络故障)

SubHealthFault

220001001

NPU卡HCCS网络故障

SeparateNPU

010001004

光链路松动(芯片故障)

SubHealthFault

210001008

光链路松动(网络故障)

SubHealthFault

310001005

DPC客户端失效

SubHealthFault

200001006

疑似光链路亚健康

NotHandleFault

210001009

光模块器件亚健康

SubHealthFault

220001002

备份超节点场景下,调度使用不存在的备份框资源。

SeparateNPU

220001003

备份框资源端口故障

SeparateNPU

220001004

备份框任务ID占用冲突

SeparateNPU

220001005

NetMind失效

SeparateNPU

220001006

疑似备份框链路端口部分失效

SeparateNPU

220001007

光链路调整失败

SeparateNPU