昇腾社区首页
中文
注册
开发者
下载

概述

Prefill&Decode混合服务部署(简称:PD混合服务部署),指单个MindIE LLM的服务既能处理Prefill阶段又能处理Decode阶段的推理任务。该部署方式通常适用于时延不敏感的场景。

目前支持PD混部单机服务部署和PD混部多机服务部署:

  • PD混部单机服务部署:Server运行在单个服务器上,适用于单个服务器部署模型的场景。
  • PD混部多机服务部署:Server运行在多个独立的机器上,适用于多个服务器部署模型的场景。