开发者
资源

使用说明

本章节描述集群调度组件特性的使用说明,包括场景说明、组件说明、组件和特性之间的支持关系,以及使用Volcano调度器和其他调度器时特性支持的产品列表。

场景说明

训练场景:支持的特性包括资源监测、整卡调度、静态vNPU调度断点续训和弹性训练。

推理场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。

训练和推理:在同一个集群中可以既存在训练场景又存在推理场景,在该场景下全部特性都可以使用,但不支持在同一任务中同时使用仅训练任务支持的场景特性(断点续训和弹性训练)和仅推理任务支持的场景特性(动态vNPU调度、推理卡故障恢复和推理卡故障重调度)。

使用Volcano调度器

集群调度组件支持的特性与产品的对应关系如表1所示,√表示支持在训练或推理任务场景下使用该特性;-表示不支持在该场景下使用该特性。

表1 特性支持的产品型号

特性名称

训练任务

训练任务

推理任务

产品系列

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas A3 训练系列产品

推理服务器(插Atlas 300I 推理卡

Atlas 200/300/500 推理产品

Atlas 200I/500 A2 推理产品

Atlas 推理系列产品

Atlas 800I A2 推理服务器

容器化支持

资源监测

-

-

整卡调度

-

-

静态vNPU调度

-

-

-

-

-

-

动态vNPU调度

-

-

-

-

-

-

-

断点续训

-

-

-

-

-

弹性训练

-

-

-

-

-

-

-

推理卡故障恢复

-

-

-

-

-

推理卡故障重调度

-

-

-

-

-

  • Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
  • 当前仅Atlas A3 训练系列产品中的Atlas 900 A3 SuperPoD 超节点支持使用Ascend Operator组件的整卡调度和断点续训。
  • 当前仅推理服务器(插Atlas 300I Duo 推理卡)和Atlas 800I A2 推理服务器支持使用Ascend Operator组件的整卡调度和推理卡故障重调度。
表2 特性及对应组件

组件安装位置

组件名称

整卡调度或静态vNPU调度

容器化支持

资源监测

断点续训

弹性训练

动态vNPU调度

推理卡故障恢复

推理卡故障重调度

训练

推理

训练和推理

训练和推理

训练

训练

推理

推理

推理

管理节点

Volcano

-

-

Resilience Controller

-

-

-

-

-

-

-

-

HCCL Controller

√(二选一)

-

-

-

√(二选一)

-

-

-

Ascend Operator

-

-

-

-

-

ClusterD

-

-

计算节点

Ascend Device Plugin

-

-

Ascend Docker Runtime

-

NodeD

-

-

NPU Exporter

-

-

-

-

-

-

-

-

训练容器内

Elastic Agent

-

-

-

-

-

-

-

-

使用其他调度器

不使用Volcano作为调度器时,仅支持资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性,如表3所示,√表示支持在训练或推理任务场景下使用该特性;-表示不支持在该场景下使用该特性。

表3 特性支持的产品型号

特性名称

训练任务

训练任务

推理任务

产品系列

Atlas 训练系列产品

Atlas A2 训练系列产品

Atlas A3 训练系列产品

推理服务器(插Atlas 300I 推理卡

Atlas 200/300/500 推理产品

Atlas 200I/500 A2 推理产品

Atlas 推理系列产品

Atlas 800I A2 推理服务器

容器化支持

资源监测

-

-

整卡调度

-

-

静态vNPU调度

-

-

-

-

推理卡故障恢复

-

-

-

-

-

  • Atlas 200I SoC A1 核心板不支持使用动态vNPU调度。
  • 当前仅Atlas A3 训练系列产品中的Atlas 900 A3 SuperPoD 超节点支持整卡调度和断点续训。
表4 特性及对应组件

组件安装位置

组件名称

整卡调度或静态vNPU调度

容器化支持

资源监测

推理卡故障恢复

训练

推理

训练和推理

训练和推理

推理

管理节点

Resilience Controller

-

-

-

-

-

HCCL Controller

-

-

-

-

-

Ascend Operator

-

-

-

ClusterD

-

-

计算节点

Ascend Device Plugin

-

-

Ascend Docker Runtime

-

NodeD

-

-

NPU Exporter

-

-

-

-

训练容器内

Elastic Agent

-

-

-

-

-