准备组件

表1 需要的组件说明

组件名称

说明

操作参考

Ascend Device Plugin

实现NPU设备管理功能。当NPU设备出现故障时,该组件能实现故障上报,将故障隔离。

组件的安装步骤请参见全量部署场景章节进行操作。

组件的配置,启动请参见常用操作章节,启动相应的组件。

说明:

若用户在之前已经组件的安装和启动,则可以忽略上述操作。

HCCL-Controller

实现为NPU训练任务生成ranktable file文件(也叫hccl.json文件)。

Volcano

实现调度功能。如训练任务所在节点出现故障,Volcano会将该训练任务调度到其他节点上继续运行。

Elastic-Agent

实现临终遗言功能。

NodeD

实现故障恢复功能。

当前断点续训特性暂不支持使用Ascend Operator为训练任务生成对应的环境变量,即不支持使用Ascend Operator替换HCCL-Controller组件的场景。