该场景适用于你有一台或者多台NPU服务器,需要使用kubernetes管理。并且,可以使用NPU设备管理、NPU优化调度、断点续训和推理卡故障重调度等特性。使用该场景时,会完成NPU服务器的Docker、Kubernetes和NPU集群调度组件的安装
组件 |
是否必选 |
功能说明 |
---|---|---|
Docker |
必选 |
容器引擎 |
K8s |
必选 |
容器编排系统 |
Ascend Docker Runtime |
必选 |
支持容器使用昇腾NPU |
Ascend Device Plugin |
必选 |
支持NPU设备管理功能 |
Volcano |
必选 |
支持NPU优化调度、断点续训、推理卡故障重调度 |
HCCL-Controller |
必选 |
支持为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能 |
NodeD |
必选 |
支持断点续训(节点故障)功能 |
NPU-Exporter |
必选 |
支持NPU设备管理中的状态监测功能 |