昇腾社区首页
中文
注册
开发者
下载

配置说明

断点续训针对节点故障中节点硬件故障芯片故障、灵衢总线设备故障公共故障的不同故障码,提供了默认的故障级别和对应级别的故障处理策略;芯片故障还提供了默认的故障频率和时长,以及对应的故障处理策略。

若用户需要修改故障处理策略可参见本章节。若无特殊需求,请勿随意修改。

支持配置的故障级别说明

不同类型的故障支持配置的故障级别如下表所示。

表1 支持配置的故障级别

故障名称

支持配置的故障级别

节点故障

NotHandleFault、PreSeparateFault、SeparateFault

芯片故障

NotHandleFault、RestartRequest、RestartBusiness、FreeRestartNPU、RestartNPU、SeparateNPU、PreSeparateNPU、SubHealthFault

灵衢总线设备故障

NotHandleFault、SubHealthFault、ResetFault、SeparateFault

公共故障

NotHandleFault、SeparateNPU、SubHealthFault

在以上表格中,每种故障级别的处理策略说明如下。

表2 故障级别及处理说明

故障处理策略

说明

重调度处理

优雅容错处理

NotHandleFault

对业务无影响的故障,无需处理。

暂不处理

暂不处理

RestartRequest

影响业务执行,需要重新执行业务请求。

隔离芯片,进行任务重调度。

说明:

若推理任务订阅故障信息,任务使用的推理卡上发生RestartRequest故障且故障持续时间未超过60秒,则不执行任务重调度;若故障持续时间超过60秒仍未恢复,则隔离芯片,进行任务重调度。

推理场景重新执行推理请求,训练场景重新执行训练业务。

RestartBusiness

影响业务执行,需要重新执行业务。

重新执行业务

FreeRestartNPU

影响业务执行,待芯片空闲时需复位芯片。

等待芯片空闲后复位芯片。

RestartNPU

影响业务执行,需立即复位芯片。

立即停止训练业务,复位芯片后重新执行业务。

SeparateNPU

无法恢复,需要隔离芯片。

隔离芯片,进行任务重调度。

SeparateFault

任务一定会受到影响。

说明:

灵衢总线设备故障级别为SeparateFault时,表示业务运行失败,需更换器件或板卡。

任务重调度

说明:

灵衢总线设备故障下,本故障级别代表的故障处理策略为停止当前训练任务,隔离节点,进行任务重调度。

--

ResetFault

业务运行失败

停止当前训练任务,隔离节点,进行任务重调度。

--

PreSeparateNPU

暂不影响业务,后续不再调度任务到该芯片。

预隔离芯片

预隔离芯片

PreSeparateFault

可能导致任务受到影响。

该节点上有任务则不处理,后续调度时不调度任务到该节点。

--

SubHealthFault

根据任务YAML中配置的subHealthyStrategy参数取值进行处理,详细请参见表1

当芯片出现亚健康故障时,需根据配置YAML策略进行处理。

说明:

如果后续芯片出现其他级别故障,此时SubHealthFault

处理策略不影响其他级别的故障处理。

根据策略进行处理。