配置文件说明

断点续训针对节点故障中节点硬件故障的不同级别进行分级处理。NodeD组件会获取到当前故障的故障码,根据NodeDConfiguration.json中故障码配置的故障级别,对故障进行相应处理。节点硬件故障支持的故障级别和处理方式说明如下。

NodeD组件的配置文件NodeDConfiguration.json为系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改故障码的故障级别,可以通过由NodeDConfiguration.json创建的mindx-dl-node-fault-config文件实现,操作指导请参见(可选)配置节点硬件故障级别

表1 故障说明

故障级别

故障处理策略

说明

NotHandleFault

无需处理

对任务无影响

PreSeparateFault

该节点上有任务则不处理,后续调度时不调度任务到该节点

可能导致任务受到影响

SeparateFault

任务重调度

任务一定会受到影响

注:

故障级别的高低为NotHandleFault < PreSeparateFault < SeparateFault。

表2 节点状态说明

节点状态

最高故障级别

故障处理策略

说明

Healthy

NotHandleFault

无需处理

该节点为健康节点,可以正常训练。

PreSeparate

PreSeparateFault

该节点上有任务则不处理,后续调度时不调度任务到该节点

该节点为亚健康节点,暂时可能对任务无影响,待任务受到影响退出后,后续不会再调度任务到该节点。

UnHealthy

SeparateFault

任务重调度

该节点为故障节点,将影响训练任务,立即将任务调离该节点。

注:

  • 当前节点的健康状态,主要通过本节点硬件故障的最高故障级别判断。
  • Healthy、PreSeparate和UnHealthy是MindCluster自定义的节点状态,主要是用于后续任务的调度和处理。
  • 查看节点状态和节点硬件故障信息,可参见查询上报的故障信息章节进行操作。