配比调优理论原理

PD分离部署场景下，一般实例都加载相同模型。如何分配实例的初始属性，并根据实际需求动态调整实例属性。不合理的实例配比将造成Prefill实例等待空闲或Decode实例等待空闲，造成资源浪费，最终在MFU和端到端吞吐性能上产生劣化，无法发挥PD分离调度架构的优势。

将整个PD分离系统看做生产消费模型，P实例生产KV，PD之间传输KV，D实例消费KV，三者组成Pipeline完成大模型推理。当三者中任一速率低并成为瓶颈，就会产生请求堆积，进而影响整体的吞吐量和时延。请求增加输入长度降低Prefill生产速率（计算量增加），同时也降低Decode消费速率（KV Cache访存增加），增加P和D实例可以提高生产和消费速率。

因此，PD分离系统良好运行的关键在于满足时延SLO约束下，那么面对不同的请求分布，尽可能提高这三种速率。PD配比寻优保持一个原则：使Prefill速率、Decode速率、传输速率三者互不为短板。

Prefill和Decode实例最佳配比搜索（假设Prefill实例为M，Decode实例数为N。）：

Prefill实例按最大速率处理Prefill batch，那么每个Prefill实例最大的处理速率为：
若请求能被均匀调度到各个Decode实例，那每个Decode实例到达请求速率可以估计为：
Decode实例最大Batch数为
在稳态情况下，若Decode实例每次都能以最大Batch数调度Decode，那每次调度Decode完成时间为：
Decode实例上，每秒平均Decode调度epoch为：
单个Decode实例总吞吐为：
所有Decode实例总吞吐为：
系统平均每卡吞吐为：

对所有可能的M:N配比进行搜索，求得最大的平均每卡吞吐即为最佳配比。

父主题： PD配比调优