集成说明

在进行平台集成操作前,可先参考通过命令行使用断点续训,熟悉下发断点续训任务示例yaml的实现逻辑和参数说明,帮助用户更好地理解接下来的操作。

前提条件

支持的故障模式

当前已支持20+软件类故障及90+硬件类故障的检测。支持的故障类型请参见表1,详各类典型故障的示例说明可参考典型故障.xlsx

表1 故障类型说明

故障类型

故障说明

节点故障

包括节点状态丢失和节点硬件故障。

  • 节点状态丢失,如服务器宕机、重启、Host网卡故障等。
  • 节点硬件故障,如CPU多比特ECC、内存CE风暴等故障。
说明:

若节点的硬件故障导致节点宕机或重启,则NodeD无法检测到具体的故障类型并上报。

芯片故障

DCMI接口上报的芯片故障和设备网络探测工具hccn_tool检测到的芯片网络故障的故障码说明请参见芯片故障码参考文档章节。

参数面网络故障

包括芯片网络相关故障和总线设备故障。
  • 芯片网络相关故障:芯片之间进行参数交换的专用网络出现故障,如NPU网口故障。
  • 总线设备故障:总线设备发生故障。

业务面故障

训练任务异常退出,导致Pod的Status变为Failed状态。

说明:
可执行kubectl describe pod {pod名称} -n {NAMESPACE} |grep Status:命令,查看当前Pod的Status是否为Failed状态。回显示例如下:
1
Status:       Failed

推荐配置

在使用故障重调度的ckpt保存能力时,需根据实际情况选择周期性保存ckpt频率,用户可参考如图1所示的推荐频率。

图1 周期性ckpt保存频率推荐

ConfigMap说明