集群调度场景

场景介绍

该场景适用于你已经有一个部署好的Kubernetes集群,需要纳管新的NPU服务器。并且,可以使用NPU设备管理NPU优化调度断点续训推理卡故障重调度等特性。使用该场景时,需要在已有的Kubernetes集群的master节点部署NPU管理组件,新接入的NPU机器上部署worker节点的NPU管理组件。

安装组件列表

表1 集群调度场景安装组件列表

组件

是否必选

功能说明

Ascend Docker Runtime

必选

支持容器使用昇腾NPU

Ascend Device Plugin

必选

支持NPU设备管理功能

Volcano

必选

支持NPU优化调度、断点续训、推理卡故障重调度

HCCL-Controller

可选

需要为NPU训练任务生成ranktable file文件(也叫hccl.json文件)功能时请安装

NodeD

可选

需要使用断点续训(节点故障)功能时请安装

NPU-Exporter

可选

需要使用NPU设备管理中的状态监测功能时请安装