昇腾社区首页
中文
注册

整体开发流程

简介

为了方便后续的描述,我们对于不同的推理框架抽象为几个模块:

  • 资源初始化模块。
  • KV Cache管理模块。包括KV Cache的内存的创建,分配(PA场景)以及销毁。
  • 模型推理模块。
  • 资源释放模块。

本章节主要是介绍开发者如何在推理框架中使能LLM-DataDist的能力。

开发流程

  1. 找到推理框架中的资源初始化模块,在该阶段中调用LLM-DataDist的初始化接口和建链接口。
  2. 找到推理框架中的KV Cache管理模块,在该阶段中调用LLM-DataDist的KV Cache申请接口,将申请好的KV Cache转换为不同框架的KV Cache类型进行推理。或者调用LLM-DataDist的注册接口将自行申请的内存注册到LLM-DataDist
  3. 推理框架要能够拆分出Prefill阶段和Decode阶段,对推理脚本进行分离部署,部署到不同的集群节点上。在Decode阶段执行前需要接收来自Prefill阶段的输出作为输入,同时调用LLM-DataDist提供的KV Cache传输接口拉取或推送Prefill侧缓存的KV Cache。
  4. 分别执行Prefill推理脚本和Decode推理脚本。
  5. 在框架资源释放模块释放LLM-DataDist相关资源。