该场景适用于你已经有一个部署好的Kubernetes集群,需要纳管新的NPU服务器。并且,可以使用NPU设备管理、NPU优化调度、断点续训和推理卡故障重调度等特性。使用该场景时,需要在已有的Kubernetes集群的master节点部署NPU管理组件,新接入的NPU机器上部署worker节点的NPU管理组件。
组件 |
是否必选 |
功能说明 |
---|---|---|
Ascend Docker Runtime |
必选 |
支持容器使用昇腾NPU |
Ascend Device Plugin |
必选 |
支持NPU设备管理功能 |
Volcano |
必选 |
支持NPU优化调度、断点续训、推理卡故障重调度 |
HCCL-Controller |
可选 |
需要为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能时请安装 |
NodeD |
可选 |
需要使用断点续训(节点故障)功能时请安装 |
NPU-Exporter |
可选 |
需要使用NPU设备管理中的状态监测功能时请安装 |