Transformer大模型推理PD分离部署特性，主要是指模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理，其结合Prefill阶段的计算密集型特性，以及Decode阶段的访存密集型特性，通过调节PD节点数量配比来提升Decode节点的batch size来充分发挥NPU卡的算力，进而提升集群整体吞吐。此外，在Decode平均低时延约束场景，PD分离相比PD混合部署，更加能够发挥性能优势。

特性介绍