昇腾社区首页
中文
注册
开发者
下载

配置说明

断点续训针对节点故障中节点硬件故障芯片故障、灵衢总线设备故障公共故障的不同故障码,提供了默认的故障级别和对应级别的故障处理策略;芯片故障还提供了默认的故障频率和时长,以及对应的故障处理策略。

若用户需要修改故障处理策略可参见本章节。若无特殊需求,请勿随意修改。

支持配置的故障级别说明

不同类型的故障支持配置的故障级别如下表所示。

表1 支持配置的故障级别

故障名称

支持配置的故障级别

节点故障

NotHandleFault、PreSeparateFault、SeparateFault

芯片故障

NotHandleFault、RestartRequest、RestartBusiness、FreeRestartNPU、RestartNPU、SeparateNPU、PreSeparateNPU、SubHealthFault

灵衢总线设备故障

NotHandleFault、SubHealthFault、ResetFault、SeparateFault

公共故障

NotHandleFault、SeparateNPU、SubHealthFault

在以上表格中,每种故障级别的处理策略说明如下。

表2 故障级别及处理说明

故障处理策略

说明

重调度处理

优雅容错处理

NotHandleFault

对业务无影响的故障,无需处理。

暂不处理

暂不处理

RestartRequest

影响业务执行,需要重新执行业务请求。

隔离芯片,进行任务重调度。

推理场景重新执行推理请求,训练场景重新执行训练业务。

RestartBusiness

影响业务执行,需要重新执行业务。

重新执行业务

FreeRestartNPU

影响业务执行,待芯片空闲时需复位芯片。

等待芯片空闲后复位芯片。

RestartNPU

影响业务执行,需立即复位芯片。

立即停止训练业务,复位芯片后重新执行业务。

SeparateNPU

无法恢复,需要隔离芯片。

隔离芯片,进行任务重调度。

SeparateFault

任务一定会受到影响。

说明:

灵衢总线设备故障级别为SeparateFault时,表示业务运行失败,需更换器件或板卡。

任务重调度

说明:

灵衢总线设备故障下,本故障级别代表的故障处理策略为停止当前训练任务,隔离节点,进行任务重调度。

--

ResetFault

业务运行失败

停止当前训练任务,隔离节点,进行任务重调度。

--

PreSeparateNPU

暂不影响业务,后续不再调度任务到该芯片。

预隔离芯片

预隔离芯片

PreSeparateFault

可能导致任务受到影响。

该节点上有任务则不处理,后续调度时不调度任务到该节点。

--

SubHealthFault

根据任务YAML中配置的subHealthyStrategy参数取值进行处理,详细请参见表1

当芯片出现亚健康故障时,需根据配置YAML策略进行处理。

说明:

如果后续芯片出现其他级别故障,此时SubHealthFault

处理策略不影响其他级别的故障处理。

根据策略进行处理。