概述

Prefill&Decode混合服务部署（简称：PD混合服务部署），指单个MindIE LLM的服务既能处理Prefill阶段又能处理Decode阶段的推理任务。该部署方式通常适用于时延不敏感的场景。

目前支持PD混部单机服务部署和PD混部多机服务部署：

父主题： PD混合服务部署