集成说明

在进行平台集成操作前，可先参考通过命令行使用断点续训，熟悉下发断点续训任务示例yaml的实现逻辑和参数说明，帮助用户更好地理解接下来的操作。

前提条件

仅支持使用集群调度组件的K8s集群，同时需要保证K8s集群中各节点时间一致，避免程序误判。
使用前需要检查存储的磁盘空间，确保可以容纳checkpoint。
配置存储方案：用户需确保环境中有配置相应的存储方案，比如使用NFS（Network File System），可参考安装NFS进行操作。
NFS需要用户根据使用情况进行目录隔离，NFS的随机读写性能必须能够在15分钟内保存完整的ckpt文件，建议用户使用专业的存储服务器，NFS具体性能要求给出如下参考。
安装所需组件：使用断点续训特性需要提前安装如下组件；若没有安装，请参考安装部署章节进行操作。
- Volcano：包括开源Volcano和集群调度组件提供的Volcano；开源Volcano需要集成Ascend-volcano-plugin插件。
- Ascend Operator或HCCL Controller
- Ascend Device Plugin
- Ascend Docker Runtime
- NodeD
- ClusterD
- Ascend Operator为不同AI框架的分布式训练任务提供相应的环境变量，请参见Ascend Operator环境变量说明。
- HCCL Controller为训练任务通信集合配置文件（RankTable File，也叫hccl.json文件）。
- Elastic Agent：使用优雅容错或者PyTorch框架使用Pod级别重调度功能时会用到该组件，无需提前安装。
- 开源Volcano集成Ascend-volcano-plugin插件的操作步骤可参见集成昇腾插件扩展开源Volcano章节进行操作。
适配整卡调度：请参考集成后使用章节进行操作，确保当前AI平台已经可以实现下发使用整卡资源类型的训练任务。
（可选）适配资源监测：请参考安装部署安装NPU Exporter组件，并参考资源监测章节进行使用。

支持的故障模式

当前已支持20+软件类故障及90+硬件类故障的检测。支持的故障类型请参见表1，详细的故障说明请参见典型故障.xlsx。

表1 故障类型说明
故障类型	故障说明
节点故障	包括节点心跳丢失和节点硬件故障。节点心跳丢失，如服务器宕机、重启、Host网卡故障等。节点硬件故障，如CPU多比特ECC、内存CE风暴等故障。说明：若节点的硬件故障导致节点宕机或重启，则NodeD无法检测到具体的故障类型并上报。
芯片故障	DCMI接口上报的芯片故障和设备网络探测工具hccn_tool检测到的芯片网络故障的故障码说明请参见如下文档。 Atlas 训练系列产品《Atlas 中心训练服务器健康管理故障定义》《Atlas 中心训练服务器黑匣子错误码信息列表》 Atlas A2 训练系列产品：《Atlas A2 中心推理和训练硬件健康管理故障定义》《Atlas A2 中心推理和训练硬件黑匣子错误码信息列表》
参数面网络故障	芯片之间进行参数交换的专用网络出现故障，如NPU网口故障。
业务面故障	训练任务异常退出，导致Pod的Status变为Failed状态。说明：可执行*kubectl describe pod {pod名称}* -n {NAMESPACE} \|grep Status:命令，查看当前Pod的Status是否为Failed状态。回显示例如下： Status: Failed**

ConfigMap说明

每个计算节点的Ascend Device Plugin均会创建记录本节点NPU设备信息的ConfigMap文件，该ConfigMap文件名称为mindx-dl-deviceinfo-<nodename>（以下简称device-info-cm），通过该ConfigMap进行故障信息的上报。
每个计算节点的NodeD均会创建记录本节点设备信息的ConfigMap文件，该ConfigMap文件名称为mindx-dl-nodeinfo-<nodename>（以下简称node-info-cm），通过该ConfigMap进行节点故障的信息上报。
ClusterD会创建记录本集群设备信息的ConfigMap文件，该ConfigMap文件名称为cluster-info-<device/node>-<[0-5]>（以下简称cluster-info-cm），通过该ConfigMap进行集群中节点及芯片故障信息上报。
创建每个任务时，需要在yaml中配置ConfigMap文件，该ConfigMap文件名称为reset-config-<job-name>（以下简称reset-info-cm），同时将该ConfigMap挂载到容器的“/user/restore/reset/config”路径下。

父主题： 集成指导

集成说明

前提条件

支持的故障模式

推荐配置

ConfigMap说明