断点续训针对节点故障中节点硬件故障的不同级别进行分级处理。NodeD组件会获取到当前故障的故障码,根据NodeDConfiguration.json中故障码配置的故障级别,对故障进行相应处理。节点硬件故障支持的故障级别和处理方式说明如下。
NodeD组件的配置文件NodeDConfiguration.json为系统配置文件,若用户无特殊需求,请勿随意修改。若用户需要修改故障码的故障级别,可以通过由NodeDConfiguration.json创建的mindx-dl-node-fault-config文件实现,操作指导请参见(可选)配置节点硬件故障级别。
故障级别 |
故障处理策略 |
说明 |
---|---|---|
NotHandleFault |
无需处理 |
对任务无影响 |
PreSeparateFault |
该节点上有任务则不处理,后续调度时不调度任务到该节点 |
可能导致任务受到影响 |
SeparateFault |
任务重调度 |
任务一定会受到影响 |
注: 故障级别的高低为NotHandleFault < PreSeparateFault < SeparateFault。 |
节点状态 |
最高故障级别 |
故障处理策略 |
说明 |
---|---|---|---|
Healthy |
NotHandleFault |
无需处理 |
该节点为健康节点,可以正常训练。 |
PreSeparate |
PreSeparateFault |
该节点上有任务则不处理,后续调度时不调度任务到该节点 |
该节点为亚健康节点,暂时可能对任务无影响,待任务受到影响退出后,后续不会再调度任务到该节点。 |
UnHealthy |
SeparateFault |
任务重调度 |
该节点为故障节点,将影响训练任务,立即将任务调离该节点。 |
注:
|