流程说明
基于OME的SGLang推理任务包含Router Pod和推理实例Pod,推理实例Pod分为Prefill实例Pod和Decode实例Pod,其中Router Pod不需要使用NPU资源,OME根据不同的推理服务配置方式生成不同的工作负载,用于创建不同的推理实例,并由Router统一对外提供推理服务。MindCluster集群调度组件支持对Deployment和LeaderWorkerSet两种OME推理任务的工作负载进行调度。LeaderWorkerSet任务场景下需要开启LWS的组调度功能。
父主题: 通过命令行使用
