使用说明
本章节描述集群调度组件特性的使用说明,包括场景说明、组件说明、组件和特性之间的支持关系,以及使用Volcano调度器和其他调度器时特性支持的产品列表。
场景说明
训练场景:支持的特性包括资源监测、整卡调度、静态vNPU调度断点续训和弹性训练。
推理场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。
同一集群中可能同时存在训练和推理任务,同一任务中不能同时使用仅支持训练(断点续训和弹性训练)和仅支持推理(动态vNPU调度、推理卡故障恢复和推理卡故障重调度)的特性。
使用Volcano调度器
集群调度组件支持的特性与产品的对应关系如表1所示,√表示支持在训练或推理任务场景下使用该特性;-表示不支持在该场景下使用该特性。
特性名称 |
训练任务 |
推理任务 |
|||||
---|---|---|---|---|---|---|---|
产品系列 |
Atlas 训练系列产品 |
Atlas A2 训练系列产品 |
推理服务器(插Atlas 300I 推理卡) |
Atlas 200/300/500 推理产品 |
Atlas 200I/500 A2 推理产品 |
Atlas 推理系列产品 |
Atlas 800I A2 推理服务器 |
容器化支持 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
资源监测 |
√ |
√ |
√ |
- |
- |
√ |
√ |
整卡调度 |
√ |
√ |
√ |
- |
- |
√ |
√ |
静态vNPU调度 |
√ |
√ |
- |
- |
- |
√ |
- |
动态vNPU调度 |
- |
- |
- |
- |
- |
√ |
- |
断点续训 |
√ |
√ |
- |
- |
- |
- |
- |
弹性训练 |
√ |
- |
- |
- |
- |
- |
- |
推理卡故障恢复 |
- |
- |
√ |
- |
- |
√ |
√ |
推理卡故障重调度 |
- |
- |
√ |
- |
- |
√ |
√ |

- Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
- 当前仅推理服务器(插Atlas 300I Duo 推理卡)和Atlas 800I A2 推理服务器支持使用Ascend Operator组件的整卡调度和推理卡故障重调度。
组件安装位置 |
组件名称 |
整卡调度或静态vNPU调度 |
容器化支持 |
资源监测 |
断点续训 |
弹性训练 |
动态vNPU调度 |
推理卡故障恢复 |
推理卡故障重调度 |
|
---|---|---|---|---|---|---|---|---|---|---|
训练 |
推理 |
训练和推理 |
训练和推理 |
训练 |
训练 |
推理 |
推理 |
推理 |
||
管理节点 |
Volcano |
√ |
√ |
- |
- |
√ |
√ |
√ |
√ |
√ |
Resilience Controller |
- |
- |
- |
- |
- |
√ |
- |
- |
- |
|
Ascend Operator |
√ |
√ |
- |
- |
√ |
√ |
- |
- |
√ |
|
ClusterD |
√ |
√ |
- |
- |
√ |
√ |
√ |
√ |
√ |
|
计算节点 |
Ascend Device Plugin |
√ |
√ |
- |
- |
√ |
√ |
√ |
√ |
√ |
Ascend Docker Runtime |
√ |
√ |
√ |
- |
√ |
√ |
√ |
√ |
√ |
|
NodeD |
√ |
√ |
- |
- |
√ |
√ |
√ |
√ |
√ |
|
NPU Exporter |
- |
- |
- |
√ |
- |
- |
- |
- |
- |
|
训练容器内 |
Elastic Agent |
- |
- |
- |
- |
√ |
- |
- |
- |
- |
使用其他调度器
不使用Volcano作为调度器时,仅支持资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性,如表3所示,√表示支持在训练或推理任务场景下使用该特性;-表示不支持在该场景下使用该特性。
特性名称 |
训练任务 |
推理任务 |
|||||
---|---|---|---|---|---|---|---|
产品系列 |
Atlas 训练系列产品 |
Atlas A2 训练系列产品 |
推理服务器(插Atlas 300I 推理卡) |
Atlas 200/300/500 推理产品 |
Atlas 200I/500 A2 推理产品 |
Atlas 推理系列产品 |
Atlas 800I A2 推理服务器 |
容器化支持 |
√ |
√ |
√ |
√ |
√ |
√ |
√ |
资源监测 |
√ |
√ |
√ |
- |
- |
√ |
√ |
整卡调度 |
√ |
√ |
√ |
- |
- |
√ |
√ |
静态vNPU调度 |
√ |
√ |
- |
- |
- |
√ |
√ |
推理卡故障恢复 |
- |
- |
√ |
- |
- |
√ |
√ |

- Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
组件安装位置 |
组件名称 |
整卡调度或静态vNPU调度 |
容器化支持 |
资源监测 |
推理卡故障恢复 |
|
---|---|---|---|---|---|---|
训练 |
推理 |
训练和推理 |
训练和推理 |
推理 |
||
管理节点 |
Resilience Controller |
- |
- |
- |
- |
- |
Ascend Operator |
√ |
√ |
- |
- |
- |
|
ClusterD |
√ |
√ |
- |
- |
√ |
|
计算节点 |
Ascend Device Plugin |
√ |
√ |
- |
- |
√ |
Ascend Docker Runtime |
√ |
√ |
√ |
- |
√ |
|
NodeD |
√ |
√ |
- |
- |
√ |
|
NPU Exporter |
- |
- |
- |
√ |
- |
|
训练容器内 |
Elastic Agent |
- |
- |
- |
- |
- |