PD分离架构说明
该架构将推理的2个阶段(Prefill和Decode)分别部署到不同的实例上进行计算,从而减少Prefill和Decode之间互相干扰,提升推理性能。其基本流程如下:
图1 PD分离架构基本流程
PD分离是集群化架构,集群中,存在三种必要的元素,如下所示:
- 调度器(Coordinator)
- Prefill实例(P)
- Decode实例(D)
其中,调度器负责对外发布推理接口,P、D负责各自推理阶段的计算。调度器(Coordinator)是由集群管理组件实现;P和D实例是由Server实现。
基于该架构,Server不再对终端用户直接开放接口,本章节主要描述Server对集群管理组件开放的接口。
父主题: PD分离相关接口