昇腾社区首页
EN
注册

配比调优理论原理

PD分离部署场景下,一般实例都加载相同模型。如何分配实例的初始属性,并根据实际需求动态调整实例属性。不合理的实例配比将造成Prefill实例等待空闲或Decode实例等待空闲,造成资源浪费,最终在MFU和端到端吞吐性能上产生劣化,无法发挥PD分离调度架构的优势。

将整个PD分离系统看做生产消费模型,P实例生产KV,PD之间传输KV,D实例消费KV,三者组成Pipeline完成大模型推理。当三者中任一速率低并成为瓶颈,就会产生请求堆积,进而影响整体的吞吐量和时延。请求增加输入长度降低Prefill生产速率(计算量增加),同时也降低Decode消费速率(KV Cache访存增加),增加P和D实例可以提高生产和消费速率。

因此,PD分离系统良好运行的关键在于满足时延SLO约束下,那么面对不同的请求分布,尽可能提高这三种速率。PD配比寻优保持一个原则:使Prefill速率、Decode速率、传输速率三者互不为短板。

Prefill和Decode实例最佳配比搜索(假设Prefill实例为M,Decode实例数为N。):
  • Prefill实例按最大速率处理Prefill batch,那么每个Prefill实例最大的处理速率为:
  • 若请求能被均匀调度到各个Decode实例,那每个Decode实例到达请求速率可以估计为:
  • Decode实例最大Batch数为
  • 在稳态情况下,若Decode实例每次都能以最大Batch数调度Decode,那每次调度Decode完成时间为:
  • Decode实例上,每秒平均Decode调度epoch为:
  • 单个Decode实例总吞吐为:
  • 所有Decode实例总吞吐为:
  • 系统平均每卡吞吐为:

对所有可能的M:N配比进行搜索,求得最大的平均每卡吞吐即为最佳配比。