昇腾社区首页
中文
注册

场景选择

场景说明

训练场景:支持的特性包括资源监测、整卡调度、静态vNPU调度,断点续训和弹性训练。

推理场景:支持的特性包括资源监测、整卡调度、静态vNPU调度、动态vNPU调度、推理卡故障恢复和推理卡故障重调度。

训练和推理:在同一个集群中可以既存在训练场景又存在推理场景,在该场景下全部特性都可以使用,但不支持在同一任务中同时使用仅训练任务支持的场景特性(断点续训和弹性训练)和仅推理任务支持的场景特性(动态vNPU调度、推理卡故障恢复和推理卡故障重调度)。

使用Volcano调度器可支持全部特性,使用其他调度器仅支持资源监测、整卡调度、静态vNPU调度和推理卡故障恢复特性。

使用Volcano调度器

  • 同一训练任务可以选择整卡调度或静态vNPU调度特性(二选一),同一推理任务可以选择整卡调度、静态vNPU调度或动态vNPU调度特性(三选一)。同一集群中可以同时存在使用整卡的任务和使用静态vNPU的任务,但不能同时存在使用静态vNPU的任务和使用动态vNPU的任务。
  • 若需要配置训练故障后的重调度和重训练特性,NPU资源不受限时可使用断点续训特性,若需根据可用资源自动缩减使用的NPU可使用弹性训练特性。
  • 断点续训、弹性训练、推理卡故障恢复和推理卡故障重调度特性默认使用整卡调度,用户不需要再单独配置整卡调度特性。

Volcano调度器支持的特性如表1,√表示在该特性下需要安装的组件;-表示在该特性下不需要安装的组件。

表1 Volcano支持的特性

组件安装位置

组件名称

整卡调度或静态vNPU调度

资源监测

断点续训

弹性训练

动态vNPU调度

推理卡故障恢复

推理卡故障重调度

训练

推理

训练和推理

训练

训练

推理

推理

推理

管理节点

Volcano

-

Resilience-Controller

-

-

-

-

-

-

-

HCCL-Controller

√(二选一)

-

-

√(二选一)

-

-

-

Ascend Operator

-

-

-

-

-

-

计算节点

Ascend Device Plugin

Ascend Docker Runtime

NodeD

-

-

-

-

-

-

NPU-Exporter

-

-

-

-

-

-

-

训练容器内

Elastic-Agent

-

-

-

-

-

-

-

使用其他调度器

同一任务可以选择使用整卡调度或静态vNPU调度特性(二选一)。同一集群中可以同时存在使用整卡的任务和使用静态vNPU的任务。

使用其他调度器支持的特性如表2,√表示在该特性下需要安装的组件;-表示在该特性下不需要安装的组件。

表2 其他调度器支持的特性

组件安装位置

组件名称

整卡调度或静态vNPU调度

资源监测

推理卡故障恢复

训练

推理

训练和推理

推理

管理节点

Resilience-Controller

-

-

-

-

HCCL-Controller

-

-

-

-

Ascend Operator

-

-

-

计算节点

Ascend Device Plugin

Ascend Docker Runtime

NodeD

-

-

-

-

NPU-Exporter

-

-

-

训练容器内

Elastic-Agent

-

-

-

-