配置说明
断点续训针对节点故障中节点硬件故障、芯片故障、灵衢总线设备故障和公共故障的不同故障码,提供了默认的故障级别和对应级别的故障处理策略;芯片故障还提供了默认的故障频率和时长,以及对应的故障处理策略。
若用户需要修改故障处理策略可参见本章节。若无特殊需求,请勿随意修改。
支持配置的故障级别说明
不同类型的故障支持配置的故障级别如下表所示。
故障名称 |
支持配置的故障级别 |
||
|---|---|---|---|
节点故障 |
NotHandleFault、PreSeparateFault、SeparateFault |
||
芯片故障 |
NotHandleFault、RestartRequest、RestartBusiness、FreeRestartNPU、RestartNPU、SeparateNPU、PreSeparateNPU、SubHealthFault |
||
灵衢总线设备故障 |
NotHandleFault、SubHealthFault、ResetFault、SeparateFault |
||
公共故障 |
NotHandleFault、SeparateNPU、SubHealthFault |
||
在以上表格中,每种故障级别的处理策略说明如下。
故障处理策略 |
说明 |
重调度处理 |
优雅容错处理 |
|---|---|---|---|
NotHandleFault |
对业务无影响的故障,无需处理。 |
暂不处理 |
暂不处理 |
RestartRequest |
影响业务执行,需要重新执行业务请求。 |
隔离芯片,进行任务重调度。 说明:
若推理任务订阅了故障信息,任务使用的推理卡上发生RestartRequest故障且故障持续时间未超过60秒,则不执行任务重调度;若故障持续时间超过60秒仍未恢复,则隔离芯片,进行任务重调度。 |
推理场景重新执行推理请求,训练场景重新执行训练业务。 |
RestartBusiness |
影响业务执行,需要重新执行业务。 |
重新执行业务 |
|
FreeRestartNPU |
影响业务执行,待芯片空闲时需复位芯片。 |
等待芯片空闲后复位芯片。 |
|
RestartNPU |
影响业务执行,需立即复位芯片。 |
立即停止训练业务,复位芯片后重新执行业务。 |
|
SeparateNPU |
无法恢复,需要隔离芯片。 |
隔离芯片,进行任务重调度。 |
|
SeparateFault |
任务一定会受到影响。 说明:
灵衢总线设备故障级别为SeparateFault时,表示业务运行失败,需更换器件或板卡。 |
任务重调度 说明:
灵衢总线设备故障下,本故障级别代表的故障处理策略为停止当前训练任务,隔离节点,进行任务重调度。 |
-- |
ResetFault |
业务运行失败 |
停止当前训练任务,隔离节点,进行任务重调度。 |
-- |
PreSeparateNPU |
暂不影响业务,后续不再调度任务到该芯片。 |
预隔离芯片 |
预隔离芯片 |
PreSeparateFault |
可能导致任务受到影响。 |
该节点上有任务则不处理,后续调度时不调度任务到该节点。 |
-- |
SubHealthFault |
根据任务YAML中配置的subHealthyStrategy参数取值进行处理,详细请参见表1。 |
当芯片出现亚健康故障时,需根据配置YAML策略进行处理。 说明:
如果后续芯片出现其他级别故障,此时SubHealthFault 处理策略不影响其他级别的故障处理。 |
根据策略进行处理。 |