昇腾社区首页
中文
注册
开发者
下载

准备任务YAML

用户可根据实际情况完成制作镜像的准备工作,然后选择相应的YAML示例,对示例进行修改。

前提条件

已完成镜像的准备工作。SGLang推理镜像可通过SGLang文档获取,镜像中依赖的MemFabric Hybrid可通过MemFabric Hybrid获取。

选择YAML示例

基于OME框架的SGLang推理任务可以由Base Model、Serving Runtime和Inference Service三类CRD拉起,Base Model和Inference Service的资源使用和部署请参见OME文档

集群调度为用户提供OME任务的ClusterServingRuntime资源的YAML示例,用户需要根据使用的组件、芯片类型和任务类型等,选择相应的YAML示例并根据需求进行相应修改后才可使用。

类型

硬件型号

YAML名称

获取链接

实例不跨机(Deployment场景)

Atlas 800I A2 推理服务器

Atlas 800I A3 超节点服务器

llama-3-2-1b-instruct-rt-pd-standalone.yaml

获取YAML

实例跨机(LeaderWorkerSet场景)

Atlas 800I A2 推理服务器

Atlas 800I A3 超节点服务器

llama-3-2-1b-instruct-rt-pd-distributed.yaml

获取YAML

注:当前示例仅供测试使用,用户可根据模型实际情况进行修改。

用户根据OME框架的部署方式依此完成Base Model、Serving Runtime和Inference Service三个YAML修改后,OME及其依赖组件负责拉起子工作负载(Deployment或LeaderWorkerSet)和对应的Pod,并管理推理服务Pod的生命周期。在推理服务对应的Pod创建完成后,MindCluster负责对Pod进行调度。

任务YAML说明

apiVersion: ome.io/v1beta1
kind: ClusterServingRuntime
metadata:
  name: srt-llama-3-2-1b-instruct-distributed     
spec:
  decoderConfig:
    annotations:
      sp-block: "16"  #仅Atlas 900 A3 SuperPoD 超节点场景配置,大小为一个P/D实例对应的Pod请求的NPU总数       
       huawei.com/schedule_minAvailable: "2" #仅在实例不跨机,即Deployment场景下配置,大小为D实例(在engineConfig字段中为P实例)的副本数量
    leader:
      nodeSelector:
        accelerator-type: module-a3-16-super-pod   #根据实际节点类型配置
        schedulerName: volcano  #设置调度器为Volcano
      runner:
        name: sglang-decoder
        image: "sglang:xxx"
        command:
        ...
        env:
        ...
        - name: ASCEND_VISIBLE_DEVICES
          valueFrom:
            fieldRef:
              fieldPath: metadata.annotations['huawei.com/Ascend910']
        resources:
          limits:
           huawei.com/Ascend910: 16  #根据实际每个Pod所需NPU数量进行配置
          requests:
           huawei.com/Ascend910: 16  #根据实际每个Pod所需NPU数量进行配置
       volumeMounts:
       ...
       - name: driver
         mountPath: /usr/local/Ascend/driver
       ...
     volumes:
      ...
      - name: driver
        hostPath:
        path: /usr/local/Ascend/driver
    ...