Transformer大模型推理PD分离部署特性,主要是指模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理,其结合Prefill阶段的计算密集型特性,以及Decode阶段的访存密集型特性,通过调节PD节点数量配比来提升Decode节点的batch size来充分发挥NPU卡的算力,进而提升集群整体吞吐。此外,在Decode平均低时延约束场景,PD分离相比PD混合部署,更加能够发挥性能优势。