类型 |
配置 |
---|---|
服务器 |
Atlas 800 训练服务器(型号 9000)(NPU满配) |
训练框架 |
MindSpore/TensorFlow/PyTorch,其中断点续训特性中的临终遗言功能只支持MindSpore框架。 |
组件名称 |
组件说明 |
---|---|
Ascend Device Plugin |
实现NPU设备管理功能。当NPU设备出现故障时,该组件能实现故障上报,将故障隔离。 |
Volcano |
实现调度功能。 |
HCCL-Controller |
实现为NPU训练任务生成ranktable file文件(也叫hccl.json文件)。 |
NodeD |
实现故障恢复功能。如使用断点续训特性中的临终遗言功能,还需要使用mindx_elastic二进制文件。 |
Resilience-Controller |
支持最小业务系统功能。 |
当前最小业务系统特性暂不支持使用Ascend Operator为任务生成对应的环境变量,即不支持使用Ascend Operator替换HCCL-Controller组件的场景。