使用说明
本章节描述集群调度组件特性的使用说明,包括场景说明、特性介绍、组件和特性之间的支持关系,以及使用Volcano调度器和其他调度器时特性支持的产品列表。
场景说明
训练场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、断点续训和弹性训练。
推理场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。
同一集群中可能同时存在训练和推理任务,同一任务中不能同时使用仅支持训练(断点续训和弹性训练)和仅支持推理(动态vNPU调度、推理卡故障恢复和推理卡故障重调度)的特性。
使用Volcano调度器
集群调度组件支持的特性与产品的对应关系如表1所示,√表示支持在训练或推理任务场景下使用该特性;×表示不支持在该场景下使用该特性。
特性名称  | 
训练任务  | 
训练任务  | 
推理任务  | 
|||||||
|---|---|---|---|---|---|---|---|---|---|---|
产品系列  | 
Atlas 训练系列产品  | 
Atlas A2 训练系列产品  | 
Atlas A3 训练系列产品  | 
推理服务器(插Atlas 300I 推理卡)  | 
Atlas 200/300/500 推理产品  | 
Atlas 200I/500 A2 推理产品  | 
Atlas 推理系列产品  | 
Atlas 800I A2 推理服务器  | 
A200I A2 Box 异构组件  | 
Atlas 800I A3 超节点  | 
容器化支持  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
资源监测  | 
√  | 
√  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
整卡调度  | 
√  | 
√  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
静态vNPU调度  | 
√  | 
√  | 
×  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
×  | 
动态vNPU调度  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
×  | 
断点续训  | 
√  | 
√  | 
√  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
弹性训练  | 
√  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
×  | 
推理卡故障恢复  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
推理卡故障重调度  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
 - Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
 - 当前Atlas A3 训练系列产品中仅Atlas 900 A3 SuperPoD 超节点和Atlas 800T A3 超节点支持使用整卡调度和断点续训。
 
组件安装位置  | 
组件名称  | 
整卡调度或静态vNPU调度  | 
容器化支持  | 
资源监测  | 
断点续训  | 
弹性训练  | 
动态vNPU调度  | 
推理卡故障恢复  | 
推理卡故障重调度  | 
|
|---|---|---|---|---|---|---|---|---|---|---|
训练  | 
推理  | 
训练和推理  | 
训练和推理  | 
训练  | 
训练  | 
推理  | 
推理  | 
推理  | 
||
管理节点  | 
Volcano  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
√  | 
Resilience Controller  | 
×  | 
×  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
×  | 
|
Ascend Operator  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
×  | 
×  | 
√  | 
|
ClusterD  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
√  | 
|
计算节点  | 
Ascend Device Plugin  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
√  | 
Ascend Docker Runtime  | 
√  | 
√  | 
√  | 
×  | 
√  | 
√  | 
√  | 
√  | 
√  | 
|
NodeD  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
√  | 
|
NPU Exporter  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
×  | 
×  | 
×  | 
|
训练容器内  | 
Elastic Agent  | 
×  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
×  | 
×  | 
TaskD  | 
×  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
×  | 
×  | 
|
使用其他调度器
不使用Volcano作为调度器时,仅支持容器化支持、资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性,如表3所示。√表示支持在训练或推理任务场景下使用该特性;×表示不支持在该场景下使用该特性。
特性名称  | 
训练任务  | 
训练任务  | 
推理任务  | 
|||||||
|---|---|---|---|---|---|---|---|---|---|---|
产品系列  | 
Atlas 训练系列产品  | 
Atlas A2 训练系列产品  | 
Atlas A3 训练系列产品  | 
推理服务器(插Atlas 300I 推理卡)  | 
Atlas 200/300/500 推理产品  | 
Atlas 200I/500 A2 推理产品  | 
Atlas 推理系列产品  | 
Atlas 800I A2 推理服务器  | 
A200I A2 Box 异构组件  | 
Atlas 800I A3 超节点  | 
容器化支持  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
√  | 
资源监测  | 
√  | 
√  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
整卡调度  | 
√  | 
√  | 
√  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
静态vNPU调度  | 
√  | 
√  | 
×  | 
×  | 
×  | 
×  | 
√  | 
√  | 
√  | 
×  | 
推理卡故障恢复  | 
×  | 
×  | 
×  | 
√  | 
×  | 
×  | 
√  | 
√  | 
√  | 
√  | 
 - Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
 - 当前Atlas A3 训练系列产品中仅Atlas 900 A3 SuperPoD 超节点和Atlas 800T A3 超节点支持整卡调度和断点续训。
 
组件安装位置  | 
组件名称  | 
整卡调度或静态vNPU调度  | 
容器化支持  | 
资源监测  | 
推理卡故障恢复  | 
|
|---|---|---|---|---|---|---|
训练  | 
推理  | 
训练和推理  | 
训练和推理  | 
推理  | 
||
管理节点  | 
Resilience Controller  | 
×  | 
×  | 
×  | 
×  | 
×  | 
Ascend Operator  | 
√  | 
√  | 
×  | 
×  | 
×  | 
|
ClusterD  | 
√  | 
√  | 
×  | 
×  | 
√  | 
|
计算节点  | 
Ascend Device Plugin  | 
√  | 
√  | 
×  | 
×  | 
√  | 
Ascend Docker Runtime  | 
√  | 
√  | 
√  | 
×  | 
√  | 
|
NodeD  | 
√  | 
√  | 
×  | 
×  | 
√  | 
|
NPU Exporter  | 
×  | 
×  | 
×  | 
√  | 
×  | 
|
训练容器内  | 
Elastic Agent  | 
×  | 
×  | 
×  | 
×  | 
×  | 
TaskD  | 
×  | 
×  | 
×  | 
×  | 
×  | 
|