使用说明

本章节描述集群调度组件的使用说明，包括场景说明、组件说明、组件和特性之间的支持关系，以及使用Volcano调度器和其他调度器时特性支持的产品列表。

训练场景：支持的特性包括资源监测、整卡调度、静态vNPU调度、断点续训和弹性训练。

推理场景：支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。

训练和推理：在同一个集群中可以既存在训练场景又存在推理场景，在该场景下全部特性都可以使用，但不支持在同一任务中同时使用仅训练任务支持的场景特性（断点续训和弹性训练）和仅推理任务支持的场景特性（动态vNPU调度、推理卡故障恢复和推理卡故障重调度）。

集群调度组件的功能介绍，请参见表1。

表1 集群调度组件说明
组件	功能介绍
Ascend Docker Runtime	为训推任务提供容器化支持，自动挂载所需文件和设备依赖。
Ascend Device Plugin	基于Kubernetes设备插件机制，提供昇腾AI处理器的设备发现、分配和健康状态上报功能，使能Kubernetes管理昇腾AI处理器资源。
NPU Exporter	实时监测昇腾AI处理器的资源指标，获取如昇腾AI处理器的利用率、温度、电压等信息。
Volcano	基于开源Volcano调度插件机制，增加昇腾AI处理器的亲和性调度、故障重调度等特性，最大化发挥昇腾AI处理器计算性能。
ClusterD	提供集群级别的可用资源信息。收集集群任务信息、资源信息和故障信息及影响范围，从任务、芯片和故障维度统计分析。
Ascend Operator	提供训练任务生命周期管理，为不同AI框架的分布式训练任务提供相应的环境变量。
HCCL Controller	生成分布式训练任务依赖的集合通讯配置。
NodeD	提供节点状态上报功能，上报如节点心跳、CPU和内存等故障信息。
Resilience Controller	提供弹性缩容训练服务。在训练任务使用的硬件发生故障时，剔除该硬件并继续训练。
Elastic Agent	提供训练任务故障时刻保存临终CheckPoint能力。

集群调度组件支持的特性与产品的对应关系如表2所示，√表示支持在训练或推理任务场景下使用该特性；-表示不支持在该场景下使用该特性。

Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。

表3 特性及对应组件
组件安装位置	组件名称	整卡调度或静态vNPU调度		容器化支持	资源监测	断点续训	弹性训练	动态vNPU调度	推理卡故障恢复	推理卡故障重调度
组件安装位置	组件名称	训练	推理	训练和推理	训练和推理	训练	训练	推理	推理	推理
管理节点	Volcano	√	√	-	-	√	√	√	√	√
	Resilience Controller	-	-	-	-	-	√	-	-	-
	HCCL Controller	√（二选一）	-	-	-	√（二选一）	√	-	-	-
	Ascend Operator	√（二选一）	-	-	-	√（二选一）	-	-	-	-
	ClusterD	√	√	-	-	√	√	√	√	√
计算节点	Ascend Device Plugin	√	√	-	-	√	√	√	√	√
	Ascend Docker Runtime	√	√	√	-	√	√	√	√	√
	NodeD	√	√	-	-	√	√	√	√	√
	NPU Exporter	-	-	-	√	-	-	-	-	-
训练容器内	Elastic Agent	-	-	-	-	√	-	-	-	-

不使用Volcano作为调度器时，仅支持资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性，如表4所示，√表示支持在训练或推理任务场景下使用该特性；-表示不支持在该场景下使用该特性。

Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。

表5 特性及对应组件
组件安装位置	组件名称	整卡调度或静态vNPU调度		容器化支持	资源监测	推理卡故障恢复
组件安装位置	组件名称	训练	推理	训练和推理	训练和推理	推理
管理节点	Resilience Controller	-	-	-	-	-
	HCCL Controller	-	-	-	-	-
	Ascend Operator	√	-	-	-	-
	ClusterD	√	√	-	-	√
计算节点	Ascend Device Plugin	√	√	-	-	√
	Ascend Docker Runtime	√	√	√	-	√
	NodeD	√	√	-	-	√
	NPU Exporter	-	-	-	√	-
训练容器内	Elastic Agent	-	-	-	-	-