昇腾社区首页
中文
注册

使用说明

本章节描述集群调度组件特性的使用说明,包括场景说明、特性介绍、组件和特性之间的支持关系,以及使用Volcano调度器和其他调度器时特性支持的产品列表。

场景说明

训练场景:支持的特性包括资源监测、整卡调度、静态vNPU调度断点续训和弹性训练。

推理场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。

同一集群中可能同时存在训练和推理任务,同一任务中不能同时使用仅支持训练(断点续训和弹性训练)和仅支持推理(动态vNPU调度、推理卡故障恢复和推理卡故障重调度)的特性

使用Volcano调度器

集群调度组件支持的特性与产品的对应关系如表1所示,√表示支持在训练或推理任务场景下使用该特性;×表示不支持在该场景下使用该特性。

表1 特性支持的产品型号

特性名称

训练任务

训练任务

推理任务

产品系列

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas A3 训练系列产品

推理服务器(插Atlas 300I 推理卡

Atlas 200/300/500 推理产品

Atlas 200I/500 A2 推理产品

Atlas 推理系列产品

Atlas 800I A2 推理服务器

A200I A2 Box 异构组件

Atlas 800I A3 超节点服务器

容器化支持

资源监测

×

×

整卡调度

×

×

静态vNPU调度

×

×

×

×

×

×

×

动态vNPU调度

×

×

×

×

×

×

×

×

×

断点续训

×

×

×

×

×

×

×

弹性训练

×

×

×

×

×

×

×

×

×

推理卡故障恢复

×

×

×

×

×

推理卡故障重调度

×

×

×

×

×

  • Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
  • 当前Atlas A3 训练系列产品中仅Atlas 900 A3 SuperPoD 超节点Atlas 800T A3 超节点服务器支持使用整卡调度和断点续训。
表2 特性及对应组件

组件安装位置

组件名称

整卡调度或静态vNPU调度

容器化支持

资源监测

断点续训

弹性训练

动态vNPU调度

推理卡故障恢复

推理卡故障重调度

训练

推理

训练和推理

训练和推理

训练

训练

推理

推理

推理

管理节点

Volcano

×

×

Resilience Controller

×

×

×

×

×

×

×

×

Ascend Operator

×

×

×

×

ClusterD

×

×

计算节点

Ascend Device Plugin

×

×

Ascend Docker Runtime

×

NodeD

×

×

NPU Exporter

×

×

×

×

×

×

×

×

训练容器内

Elastic Agent

×

×

×

×

×

×

×

×

TaskD

×

×

×

×

×

×

×

×

使用其他调度器

不使用Volcano作为调度器时,仅支持容器化支持、资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性,如表3所示。√表示支持在训练或推理任务场景下使用该特性;×表示不支持在该场景下使用该特性。

表3 特性支持的产品型号

特性名称

训练任务

训练任务

推理任务

产品系列

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas A3 训练系列产品

推理服务器(插Atlas 300I 推理卡

Atlas 200/300/500 推理产品

Atlas 200I/500 A2 推理产品

Atlas 推理系列产品

Atlas 800I A2 推理服务器

A200I A2 Box 异构组件

Atlas 800I A3 超节点服务器

容器化支持

资源监测

×

×

整卡调度

×

×

静态vNPU调度

×

×

×

×

×

推理卡故障恢复

×

×

×

×

×

  • Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
  • 当前Atlas A3 训练系列产品中仅Atlas 900 A3 SuperPoD 超节点Atlas 800T A3 超节点服务器支持整卡调度和断点续训。
表4 特性及对应组件

组件安装位置

组件名称

整卡调度或静态vNPU调度

容器化支持

资源监测

推理卡故障恢复

训练

推理

训练和推理

训练和推理

推理

管理节点

Resilience Controller

×

×

×

×

×

Ascend Operator

×

×

×

ClusterD

×

×

计算节点

Ascend Device Plugin

×

×

Ascend Docker Runtime

×

NodeD

×

×

NPU Exporter

×

×

×

×

训练容器内

Elastic Agent

×

×

×

×

×

TaskD

×

×

×

×

×