昇腾社区首页
中文
注册
开发者
下载

流程说明

基于OME的SGLang推理任务包含Router Pod和推理实例Pod,推理实例Pod分为Prefill实例Pod和Decode实例Pod,其中Router Pod不需要使用NPU资源,OME根据不同的推理服务配置方式生成不同的工作负载,用于创建不同的推理实例,并由Router统一对外提供推理服务。MindCluster集群调度组件支持对Deployment和LeaderWorkerSet两种OME推理任务的工作负载进行调度。LeaderWorkerSet任务场景下需要开启LWS的组调度功能。

关于OME任务部署的详细说明可参见OME文档。LWS的组调度功能开启可以参考LWS文档

使用流程

通过命令行使用MindCluster集群调度组件部署基于OME的SGLang推理任务时,使用流程如图1所示。

图1 使用流程