使用前必读
前提条件
使用方式
- 通过命令行使用:整卡调度或静态vNPU调度特性需要使用到调度器,用户可以选择使用Volcano调度器和其他调度器。选择其他调度器时,需要使用Ascend Operator组件来通过环境变量设置资源信息;使用Volcano调度器时可以使用以下两种组件中的一种。
- Ascend Operator:通过环境变量设置资源信息。
- HCCL Controller:通过配置文件设置资源信息。
- 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。
使用说明
支持的产品形态
- 支持以下产品使用整卡调度。
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- 支持以下产品使用静态vNPU调度。
Atlas 训练系列产品
使用流程
整卡调度、静态vNPU调度有3种使用场景,分别是通过命令行使用(Volcano)、通过命令行使用(其他调度器)和集成后使用。
通过命令行使用Volcano和其他调度器的使用流程一致,主要区别在于使用其他调度器进行脚本适配时,不可使用HCCL Controller组件;使用其他调度器准备任务yaml需要参考通过命令行使用(其他调度器)章节创建任务yaml。使用其他调度器的其余操作和使用Volcano一致,可以参考通过命令行使用(Volcano)进行操作。
图1 使用流程


- 在准备训练镜像时,使用Volcano调度器时可以选择Ascend Operator或HCCL Controller;使用其他调度器时只能选择使用Ascend Operator。
- 在准备任务yaml时,下发的任务yaml又需要根据具体的NPU型号,选择不同的yaml进行修改适配。
父主题: 整卡调度或静态vNPU调度(训练)