准备任务YAML
用户可根据实际情况完成制作镜像的准备工作,然后选择相应的YAML示例,对示例进行修改。
选择YAML示例
基于OME框架的SGLang推理任务可以由Base Model、Serving Runtime和Inference Service三类CRD拉起,Base Model和Inference Service的资源使用和部署请参见OME文档。
集群调度为用户提供OME任务的ClusterServingRuntime资源的YAML示例,用户需要根据使用的组件、芯片类型和任务类型等,选择相应的YAML示例并根据需求进行相应修改后才可使用。
类型 |
硬件型号 |
YAML名称 |
获取链接 |
|---|---|---|---|
实例不跨机(Deployment场景) |
Atlas 800I A2 推理服务器 Atlas 800I A3 超节点服务器 |
llama-3-2-1b-instruct-rt-pd-standalone.yaml |
|
实例跨机(LeaderWorkerSet场景) |
Atlas 800I A2 推理服务器 Atlas 800I A3 超节点服务器 |
llama-3-2-1b-instruct-rt-pd-distributed.yaml |
|
注:当前示例仅供测试使用,用户可根据模型实际情况进行修改。 |
|||
用户根据OME框架的部署方式依此完成Base Model、Serving Runtime和Inference Service三个YAML修改后,OME及其依赖组件负责拉起子工作负载(Deployment或LeaderWorkerSet)和对应的Pod,并管理推理服务Pod的生命周期。在推理服务对应的Pod创建完成后,MindCluster负责对Pod进行调度。
任务YAML说明
apiVersion: ome.io/v1beta1
kind: ClusterServingRuntime
metadata:
name: srt-llama-3-2-1b-instruct-distributed
spec:
decoderConfig:
annotations:
sp-block: "16" #仅Atlas 900 A3 SuperPoD 超节点场景配置,大小为一个P/D实例对应的Pod请求的NPU总数
huawei.com/schedule_minAvailable: "2" #仅在实例不跨机,即Deployment场景下配置,大小为D实例(在engineConfig字段中为P实例)的副本数量
leader:
nodeSelector:
accelerator-type: module-a3-16-super-pod #根据实际节点类型配置
schedulerName: volcano #设置调度器为Volcano
runner:
name: sglang-decoder
image: "sglang:xxx"
command:
...
env:
...
- name: ASCEND_VISIBLE_DEVICES
valueFrom:
fieldRef:
fieldPath: metadata.annotations['huawei.com/Ascend910']
resources:
limits:
huawei.com/Ascend910: 16 #根据实际每个Pod所需NPU数量进行配置
requests:
huawei.com/Ascend910: 16 #根据实际每个Pod所需NPU数量进行配置
volumeMounts:
...
- name: driver
mountPath: /usr/local/Ascend/driver
...
volumes:
...
- name: driver
hostPath:
path: /usr/local/Ascend/driver
...
父主题: 通过命令行使用