返回顶部 概述 Prefill&Decode混合服务部署(简称:PD混合服务部署),指单个MindIE LLM的服务既能处理Prefill阶段又能处理Decode阶段的推理任务。该部署方式通常适用于时延不敏感的场景。 目前支持PD混部单机服务部署和PD混部多机服务部署: PD混部单机服务部署:Server运行在单个服务器上,适用于单个服务器部署模型的场景。PD混部多机服务部署:Server运行在多个独立的机器上,适用于多个服务器部署模型的场景。 父主题: PD混合服务部署