配置文件说明
断点续训针对节点故障中节点硬件故障的不同级别进行分级处理。NodeD组件会获取到当前故障的故障码,根据NodeDConfiguration.json中故障码配置的故障级别,对故障进行相应处理。节点硬件故障支持的故障级别和处理方式说明如下。
NodeD组件的配置文件NodeDConfiguration.json为系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改故障码的故障级别,可以通过由NodeDConfiguration.json创建的mindx-dl-node-fault-config文件实现,操作指导请参见(可选)配置节点硬件故障级别。
故障级别  | 
故障处理策略  | 
说明  | 
|---|---|---|
NotHandleFault  | 
无需处理  | 
对任务无影响  | 
PreSeparateFault  | 
该节点上有任务则不处理,后续调度时不调度任务到该节点  | 
可能导致任务受到影响  | 
SeparateFault  | 
任务重调度  | 
任务一定会受到影响  | 
注: 故障级别的高低为NotHandleFault < PreSeparateFault < SeparateFault。  | 
||
节点状态  | 
最高故障级别  | 
故障处理策略  | 
说明  | 
|---|---|---|---|
Healthy  | 
NotHandleFault  | 
无需处理  | 
该节点为健康节点,可以正常训练。  | 
PreSeparate  | 
PreSeparateFault  | 
该节点上有任务则不处理,后续调度时不调度任务到该节点  | 
该节点为亚健康节点,暂时可能对任务无影响,待任务受到影响退出后,后续不会再调度任务到该节点。  | 
UnHealthy  | 
SeparateFault  | 
任务重调度  | 
该节点为故障节点,将影响训练任务,立即将任务调离该节点。  | 
注: 
 
  | 
|||
父主题: 节点硬件故障