昇腾社区首页
中文
注册

使用前必读

前提条件

  • 确保环境中有配置相应的存储方案,比如使用NFS(Network File System),用户可以参见安装NFS进行操作。
  • 在使用整卡调度或静态vNPU调度特性前,需要确保相关组件已经安装。
    • 调度器(Volcano或其他调度器)
    • Ascend Device Plugin
    • Ascend Docker Runtime
    • Ascend Operator
    • ClusterD
    • NodeD
  • 若没有安装以上组件,可以参考安装部署章节进行操作。

使用方式

  • 通过命令行使用:整卡调度或静态vNPU调度特性需要使用到调度器,用户可以选择使用Volcano调度器和其他调度器。无论选择哪种调度器,都需要使用Ascend Operator组件设置资源信息。

    Ascend Operator提供以下2种方式配置资源信息:

    • 通过环境变量配置资源信息:为不同AI框架的分布式训练任务提供相应的环境变量,请参见Ascend Operator环境变量说明。使用此方式的用户仅支持创建Ascend job(以下简称acjob)对象。
    • 通过文件配置资源信息:训练任务通信集合配置文件(RankTable File,也叫hccl.json)。使用此方式的用户支持创建以下3种类型的对象:Volcano Job(以下简称vcjob)、Ascend job(以下简称acjob)和Deployment(以下简称deploy)。
  • 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。

使用说明

  • 资源监测可以和训练场景下的所有特性一起使用。
  • 集群中同时跑多个训练任务,每个任务使用的特性可以不同。
  • 静态vNPU调度特性需要搭配算力虚拟化特性一起使用,关于静态虚拟化的相关说明和操作请参见静态虚拟化章节。

支持的产品形态

  • 支持以下产品使用整卡调度
    • Atlas 训练系列产品
    • Atlas A2 训练系列产品
  • 支持以下产品使用静态vNPU调度

    Atlas 训练系列产品

使用流程

整卡调度、静态vNPU调度有3种使用场景,分别是通过命令行使用(Volcano)、通过命令行使用(其他调度器)和集成后使用。

通过命令行使用Volcano和其他调度器的使用流程一致。使用其他调度器准备任务yaml需要参考通过命令行使用(其他调度器)章节创建任务yaml。使用其他调度器的其余操作和使用Volcano一致,可以参考通过命令行使用(Volcano)进行操作。

图1 整卡调度和静态vNPU调度使用流程
  1. 脚本适配时,用户可根据实际情况选择通过环境变量或文件配置资源信息。
  2. 在准备任务yaml时,下发的任务yaml又需要根据具体的NPU型号,选择不同的yaml进行修改适配。选择yaml时可以参考准备任务yaml,根据实际情况选择合适的yaml。