该场景适用于用户已经有一个部署好的Kubernetes集群,希望使用集群调度组件的所有特性,如NPU设备管理、NPU优化调度、断点续训(包括临终遗言)、推理卡故障重调度和最小业务系统等特性。使用该场景时,需要在用户已有的Kubernetes集群上部署所有的集群调度组件。
组件 |
功能说明 |
---|---|
Ascend Docker Runtime |
支持容器使用昇腾NPU。 |
Ascend Device Plugin |
支持NPU设备管理功能。 |
Volcano |
支持NPU优化调度、断点续训、推理卡故障重调度。 |
HCCL-Controller |
支持为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能。 |
Ascend Operator |
支持为NPU训练任务提供环境变量。 |
NodeD |
支持断点续训(节点故障)功能。 |
NPU-Exporter |
支持NPU设备管理中的状态监测功能。 |
Resilience-Controller |
支持最小业务系统功能。 |
Elastic-Agent |
支持断点续训的临终遗言功能。 |
如果NPU-Exporter选择使用二进制部署,不需要制作组件的镜像可跳过本步骤。