本示例是以transformers的llama模型为样例，主要展示PD分离前后的脚本变化点，提供如何从非分离脚本改为PD分离脚本的一个参考，PD分离脚本示例请参考gitee。样例中将全量模型和增量模型进行分离，部署到不同集群节点上执行。

如上分离脚本在整个推理流程中是如何被服务层调度的，请参考如下步骤。

当用户请求触发时，服务层将用户请求调度到全量的集群上，执行全量脚本的推理。将增量脚本需要的信息传输到增量脚本的执行节点上。此时全量集群节点可接收服务层下发的新的用户情况。
增量集群接收全量集群对应的请求信息，拉取对应请求的KV Cache（在全量集群节点上已经计算好的），同时按照增量模型的batch大小进行组batch操作，执行增量推理。
当增量集群上有请求推理完成空出对应batch位置时，再接收全量集群发过来的新的请求，并重复执行2和3。
全量集群重复执行1，增量集群重复执行2和3，直到业务结束，全量和增量集群退出。

更多样例代码，请单击gitee，参见README了解对应sample的功能、目录结构、sample运行以及sample相关代码交付件。

完整样例参考