准备任务YAML

用户可根据实际情况完成制作镜像的准备工作，然后选择相应的YAML示例，对示例进行修改。

前提条件

已完成镜像的准备工作。SGLang推理镜像可通过SGLang文档获取，镜像中依赖的MemFabric Hybrid可通过MemFabric Hybrid获取。

选择YAML示例

基于OME框架的SGLang推理任务可以由Base Model、Serving Runtime和Inference Service三类CRD拉起，Base Model和Inference Service的资源使用和部署请参见OME文档。

集群调度为用户提供OME任务的ClusterServingRuntime资源的YAML示例，用户需要根据使用的组件、芯片类型和任务类型等，选择相应的YAML示例并根据需求进行相应修改后才可使用。

类型	硬件型号	YAML名称	获取链接
实例不跨机（Deployment场景）	Atlas 800I A2 推理服务器 Atlas 800I A3 超节点服务器	llama-3-2-1b-instruct-rt-pd-standalone.yaml	获取YAML
实例跨机（LeaderWorkerSet场景）	Atlas 800I A2 推理服务器 Atlas 800I A3 超节点服务器	llama-3-2-1b-instruct-rt-pd-distributed.yaml	获取YAML
注：当前示例仅供测试使用，用户可根据模型实际情况进行修改。

类型

硬件型号

YAML名称

获取链接

实例不跨机（Deployment场景）

Atlas 800I A2 推理服务器

Atlas 800I A3 超节点服务器

llama-3-2-1b-instruct-rt-pd-standalone.yaml

获取YAML

实例跨机（LeaderWorkerSet场景）

Atlas 800I A2 推理服务器

Atlas 800I A3 超节点服务器

llama-3-2-1b-instruct-rt-pd-distributed.yaml

获取YAML

注：当前示例仅供测试使用，用户可根据模型实际情况进行修改。

用户根据OME框架的部署方式依此完成Base Model、Serving Runtime和Inference Service三个YAML修改后，OME及其依赖组件负责拉起子工作负载（Deployment或LeaderWorkerSet）和对应的Pod，并管理推理服务Pod的生命周期。在推理服务对应的Pod创建完成后，MindCluster负责对Pod进行调度。

任务YAML说明

apiVersion: ome.io/v1beta1
kind: ClusterServingRuntime
metadata:
  name: srt-llama-3-2-1b-instruct-distributed     
spec:
  decoderConfig:
    annotations:
      sp-block: "16"  #仅Atlas 900 A3 SuperPoD 超节点场景配置，大小为一个P/D实例对应的Pod请求的NPU总数       
       huawei.com/schedule_minAvailable: "2" #仅在实例不跨机，即Deployment场景下配置，大小为D实例(在engineConfig字段中为P实例)的副本数量
    leader:
      nodeSelector:
        accelerator-type: module-a3-16-super-pod   #根据实际节点类型配置
        schedulerName: volcano  #设置调度器为Volcano
      runner:
        name: sglang-decoder
        image: "sglang:xxx"
        command:
        ...
        env:
        ...
        - name: ASCEND_VISIBLE_DEVICES
          valueFrom:
            fieldRef:
              fieldPath: metadata.annotations['huawei.com/Ascend910']
        resources:
          limits:
           huawei.com/Ascend910: 16  #根据实际每个Pod所需NPU数量进行配置
          requests:
           huawei.com/Ascend910: 16  #根据实际每个Pod所需NPU数量进行配置
       volumeMounts:
       ...
       - name: driver
         mountPath: /usr/local/Ascend/driver
       ...
     volumes:
      ...
      - name: driver
        hostPath:
        path: /usr/local/Ascend/driver
    ...

父主题： 通过命令行使用