流程说明

基于OME的SGLang推理任务包含Router Pod和推理实例Pod，推理实例Pod分为Prefill实例Pod和Decode实例Pod，其中Router Pod不需要使用NPU资源，OME根据不同的推理服务配置方式生成不同的工作负载，用于创建不同的推理实例，并由Router统一对外提供推理服务。MindCluster集群调度组件支持对Deployment和LeaderWorkerSet两种OME推理任务的工作负载进行调度。LeaderWorkerSet任务场景下需要开启LWS的组调度功能。

关于OME任务部署的详细说明可参见OME文档。LWS的组调度功能开启可以参考LWS文档。