使用说明
本章节描述集群调度组件特性的使用说明,包括场景说明、特性介绍、组件和特性之间的支持关系,以及使用Volcano调度器和其他调度器时特性支持的产品列表。
场景说明
训练场景:支持的特性包括资源监测、整卡调度、静态vNPU调度断点续训和弹性训练。
推理场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。
同一集群中可能同时存在训练和推理任务,同一任务中不能同时使用仅支持训练(断点续训和弹性训练)和仅支持推理(动态vNPU调度、推理卡故障恢复和推理卡故障重调度)的特性
使用Volcano调度器
集群调度组件支持的特性与产品的对应关系如表1所示,√表示支持在训练或推理任务场景下使用该特性;×表示不支持在该场景下使用该特性。
特性名称 |
训练任务 |
训练任务 |
推理任务 |
|||||||
---|---|---|---|---|---|---|---|---|---|---|
产品系列 |
Atlas 训练系列产品 |
Atlas A2 训练系列产品 |
Atlas A3 训练系列产品 |
推理服务器(插Atlas 300I 推理卡) |
Atlas 200/300/500 推理产品 |
Atlas 200I/500 A2 推理产品 |
Atlas 推理系列产品 |
Atlas 800I A2 推理服务器 |
A200I A2 Box 异构组件 |
Atlas 800I A3 超节点服务器 |
容器化支持 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
资源监测 |
√ |
√ |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
整卡调度 |
√ |
√ |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
静态vNPU调度 |
√ |
√ |
× |
× |
× |
× |
√ |
× |
× |
× |
动态vNPU调度 |
× |
× |
× |
× |
× |
× |
√ |
× |
× |
× |
断点续训 |
√ |
√ |
√ |
× |
× |
× |
× |
× |
× |
× |
弹性训练 |
√ |
× |
× |
× |
× |
× |
× |
× |
× |
× |
推理卡故障恢复 |
× |
× |
× |
√ |
× |
× |
√ |
√ |
√ |
√ |
推理卡故障重调度 |
× |
× |
× |
√ |
× |
× |
√ |
√ |
√ |
√ |

- Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
- 当前Atlas A3 训练系列产品中仅Atlas 900 A3 SuperPoD 超节点和Atlas 800T A3 超节点服务器支持使用整卡调度和断点续训。
组件安装位置 |
组件名称 |
整卡调度或静态vNPU调度 |
容器化支持 |
资源监测 |
断点续训 |
弹性训练 |
动态vNPU调度 |
推理卡故障恢复 |
推理卡故障重调度 |
|
---|---|---|---|---|---|---|---|---|---|---|
训练 |
推理 |
训练和推理 |
训练和推理 |
训练 |
训练 |
推理 |
推理 |
推理 |
||
管理节点 |
Volcano |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
√ |
Resilience Controller |
× |
× |
× |
× |
× |
√ |
× |
× |
× |
|
Ascend Operator |
√ |
√ |
× |
× |
√ |
√ |
× |
× |
√ |
|
ClusterD |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
√ |
|
计算节点 |
Ascend Device Plugin |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
√ |
Ascend Docker Runtime |
√ |
√ |
√ |
× |
√ |
√ |
√ |
√ |
√ |
|
NodeD |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
√ |
|
NPU Exporter |
× |
× |
× |
√ |
× |
× |
× |
× |
× |
|
训练容器内 |
Elastic Agent |
× |
× |
× |
× |
√ |
× |
× |
× |
× |
TaskD |
× |
× |
× |
× |
√ |
× |
× |
× |
× |
使用其他调度器
不使用Volcano作为调度器时,仅支持容器化支持、资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性,如表3所示。√表示支持在训练或推理任务场景下使用该特性;×表示不支持在该场景下使用该特性。
特性名称 |
训练任务 |
训练任务 |
推理任务 |
|||||||
---|---|---|---|---|---|---|---|---|---|---|
产品系列 |
Atlas 训练系列产品 |
Atlas A2 训练系列产品 |
Atlas A3 训练系列产品 |
推理服务器(插Atlas 300I 推理卡) |
Atlas 200/300/500 推理产品 |
Atlas 200I/500 A2 推理产品 |
Atlas 推理系列产品 |
Atlas 800I A2 推理服务器 |
A200I A2 Box 异构组件 |
Atlas 800I A3 超节点服务器 |
容器化支持 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
资源监测 |
√ |
√ |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
整卡调度 |
√ |
√ |
√ |
√ |
× |
× |
√ |
√ |
√ |
√ |
静态vNPU调度 |
√ |
√ |
× |
× |
× |
× |
√ |
√ |
√ |
× |
推理卡故障恢复 |
× |
× |
× |
√ |
× |
× |
√ |
√ |
√ |
√ |

- Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
- 当前Atlas A3 训练系列产品中仅Atlas 900 A3 SuperPoD 超节点和Atlas 800T A3 超节点服务器支持整卡调度和断点续训。
组件安装位置 |
组件名称 |
整卡调度或静态vNPU调度 |
容器化支持 |
资源监测 |
推理卡故障恢复 |
|
---|---|---|---|---|---|---|
训练 |
推理 |
训练和推理 |
训练和推理 |
推理 |
||
管理节点 |
Resilience Controller |
× |
× |
× |
× |
× |
Ascend Operator |
√ |
√ |
× |
× |
× |
|
ClusterD |
√ |
√ |
× |
× |
√ |
|
计算节点 |
Ascend Device Plugin |
√ |
√ |
× |
× |
√ |
Ascend Docker Runtime |
√ |
√ |
√ |
× |
√ |
|
NodeD |
√ |
√ |
× |
× |
√ |
|
NPU Exporter |
× |
× |
× |
√ |
× |
|
训练容器内 |
Elastic Agent |
× |
× |
× |
× |
× |
TaskD |
× |
× |
× |
× |
× |