使用前必读
前提条件
在命令行场景下使用整卡调度和静态vNPU调度特性,需要确保已经安装如下组件;若没有安装,可以参考安装部署章节进行操作。
- 调度器(Volcano或其他调度器)
- Ascend Device Plugin
- Ascend Docker Runtime
- Ascend Operator
- ClusterD
- NodeD
使用方式
整卡调度或静态vNPU调度特性的使用方式如下:
- 通过命令行使用:安装集群调度组件,通过命令行使用整卡调度特性。
- 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。
使用说明
- 资源监测可以和推理场景下的所有特性一起使用。
- 集群中同时跑多个推理任务,每个任务使用的特性可以不同,但不能同时存在使用静态vNPU的任务和使用动态vNPU的任务。
- 推理卡故障恢复特性可以搭配整卡调度特性一起使用,开启整卡故障恢复特性只需要将Ascend Device Plugin的启动参数“-hotReset”取值设置为“0”(默认为“-1”,不支持故障恢复功能)。
- 整卡调度支持下发单副本数或者多副本数的单机任务,每个副本独立工作,只支持推理服务器(插Atlas 300I Duo 推理卡)和Atlas 800I A2 推理服务器、A200I A2 Box 异构组件部署acjob类型的分布式任务。
- 静态vNPU调度只支持下发单副本数的单机任务,不支持分布式任务。
- 静态vNPU调度特性需要搭配算力虚拟化特性一起使用,关于静态虚拟化的相关说明和操作请参见静态虚拟化章节。
- 仅支持Atlas 推理系列产品使用静态vNPU调度,不支持推理服务器(插Atlas 300I 推理卡)使用静态vNPU调度。
支持的产品形态
- 支持以下产品使用整卡调度。
- 推理服务器(插Atlas 300I 推理卡)
- Atlas 推理系列产品
- Atlas 800I A2 推理服务器
- A200I A2 Box 异构组件
- Atlas 800I A3 超节点服务器
- 支持以下产品使用静态vNPU调度。
Atlas 推理系列产品
使用流程
通过命令行使用整卡调度或静态vNPU调度特性的流程可以参见图1。
通过命令行使用Volcano和其他调度器的使用流程一致,主要区别在使用其他调度器准备任务YAML需要参考通过命令行使用(其他调度器)章节创建任务YAML。使用其他调度器的其余操作和使用Volcano一致,可以参考通过命令行使用(Volcano)进行操作。
父主题: 整卡调度或静态vNPU调度(推理)