完整样例参考

本示例是以transformers的llama模型为样例,主要展示PD分离前后的脚本变化点,提供如何从非分离脚本改为PD分离脚本的一个参考,PD分离脚本示例请参考gitee。样例中将全量模型和增量模型进行分离,部署到不同集群节点上执行。

如上分离脚本在整个推理流程中是如何被服务层调度的,请参考如下步骤。

  1. 当用户请求触发时,服务层将用户请求调度到全量的集群上,执行全量脚本的推理。将增量脚本需要的信息传输到增量脚本的执行节点上。此时全量集群节点可接收服务层下发的新的用户情况。
  2. 增量集群接收全量集群对应的请求信息,拉取对应请求的KV Cache(在全量集群节点上已经计算好的),同时按照增量模型的batch大小进行组batch操作,执行增量推理。
  3. 当增量集群上有请求推理完成空出对应batch位置时,再接收全量集群发过来的新的请求,并重复执行23
  4. 全量集群重复执行1,增量集群重复执行23,直到业务结束,全量和增量集群退出。

更多样例代码,请单击gitee,参见README了解对应sample的功能、目录结构、sample运行以及sample相关代码交付件。