通过LLM-DataDist构建大模型推理分离式框架。

在大模型推理中，Prefill阶段将用户请求prompt传入大模型进行计算，中间结果写入KV Cache并推出第1个token。在Decode阶段中，将请求的前1个token传入大模型，从显存读取之前产生的KV Cache再进行计算。基于KV Cache的大模型推理过程，详见大模型推理流程简介。

在PD分离式框架中，为了提升性能和资源利用效率，将Prefill和Decode分别部署在不同规格和架构的集群中。PD分离式框架可提升大模型推理系统吞吐，详见为什么要做PD分离。

PD分离式框架中，Prefill阶段生成的KV Cache需要传输到Decode，然后Decode阶段进行增量迭代推理。LLM-DataDist作为大模型分布式集群和数据管理组件，通过简易的API开放给用户，构建大模型推理PD分离式框架如下图所示，LLM-DataDist提供了Prefill Node和Decode Node之间的KV Cache传输及链路管理。

LLM-DataDist应用场景