集群调度场景(全栈)
场景介绍
该场景适用于你有一台或者多台NPU服务器,需要使用kubernetes管理。并且,可以使用NPU设备管理、NPU优化调度、断点续训和推理卡故障重调度等特性。使用该场景时,会完成NPU服务器的Docker、Kubernetes和NPU集群调度组件的安装
安装组件列表
组件 |
功能说明 |
---|---|
Docker |
容器引擎 |
K8s |
容器编排系统 |
Ascend Docker Runtime |
支持容器使用昇腾NPU |
Ascend Device Plugin |
支持NPU设备管理功能 |
Volcano |
支持NPU优化调度、断点续训、推理卡故障重调度 |
HCCL-Controller |
支持为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能 |
NodeD |
支持断点续训(节点故障)功能 |
NPU-Exporter |
支持NPU设备管理中的状态监测功能 |
父主题: 支持安装场景