组件名称 |
说明 |
操作参考 |
---|---|---|
Ascend Device Plugin |
实现NPU设备管理功能。当NPU设备出现故障时,该组件能实现故障上报,将故障隔离。 |
组件的安装步骤请参见全量部署场景章节进行操作。 组件的配置,启动请参见常用操作章节,启动相应的组件。
说明:
若用户在之前已经组件的安装和启动,则可以忽略上述操作。 |
HCCL-Controller |
实现为NPU训练任务生成ranktable file文件(也叫hccl.json文件)。 |
|
Volcano |
实现调度功能。如训练任务所在节点出现故障,Volcano会将该训练任务调度到其他节点上继续运行。 |
|
Elastic-Agent |
实现临终遗言功能。 |
|
NodeD |
实现故障恢复功能。 |
当前断点续训特性暂不支持使用Ascend Operator为训练任务生成对应的环境变量,即不支持使用Ascend Operator替换HCCL-Controller组件的场景。