开发者
资源

使用前必读

前提条件

在命令行场景下使用推理卡故障重调度特性,需要确保已经安装如下组件;若没有安装,可以参考安装部署章节进行操作。推理卡故障重调度特性只支持使用Volcano作为调度器,不支持使用其他调度器。
  • Volcano
  • Ascend Device Plugin
  • Ascend Docker Runtime
  • ClusterD
  • NodeD

使用方式

推理卡故障重调度的使用方式如下:

  • 通过命令行使用:安装集群调度组件,通过命令行使用推理卡故障重调度特性。
  • 集成后使用:将集群调度组件集成到已有的第三方AI平台或者基于集群调度组件开发的AI平台。

使用说明

  • 资源监测可以和推理场景下的所有特性一起使用。
  • 集群中同时跑多个推理任务,每个任务使用的特性可以不同,但不能同时存在使用静态vNPU的任务和使用动态vNPU的任务。
  • 推理卡故障重调度特性默认使用整卡调度;不支持静态vNPU调度;支持Atlas 推理系列产品使用动态vNPU调度。
  • 推理卡故障重调度支持下发单副本数或者多副本数的单机任务,每个副本独立工作,不支持分布式任务。

支持的产品形态

支持以下产品使用推理卡故障重调度。
  • 推理服务器(插Atlas 300I 推理卡
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

使用流程

全流程使用推理卡故障重调度特性可以参见图1

图1 使用流程