待废弃接口列表
 如下接口不再演进。
LLM Engine(large language model Engine),支持推理全量增量分离部署,全量图和增量图一起部署时,会造成计算资源的浪费,原因如下:
- 全量图计算对算力要求高,大batch下算力bound或导致时延体验下降;同batch内多个inputSeq实际长度不同。
 - 增量图单次计算量小,需要高batch提升算力利用率;KV Cache容量需求高;batch内输出长度(迭代次数)不一致。
 
LLM Engine提供管理图的部署和调度执行功能,根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。
相关接口存放在:"${INSTALL_DIR}/runtime/include/ge/llm_engine.h"、"${INSTALL_DIR}/runtime/include/ge/llm_engine_types.h"、"${INSTALL_DIR}/runtime/include/ge/llm_error_codes.h"和"${INSTALL_DIR}/runtime/include/llm_datadist/llm_datadist.h"。${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包,以root安装举例,则安装后文件存储路径为:/usr/local/Ascend/ascend-toolkit/latest。
待废弃接口列表如下。
LLMReq
接口名称  | 
简介  | 
|---|---|
设置LLM执行请求的请求ID。  | 
|
获取LLM执行请求的ID。  | 
|
设置LLM执行请求的全量实际句子长度。  | 
|
获取LLM执行请求的全量实际句子长度。  | 
|
设置LLM执行请求所属的cluster ID。  | 
|
获取LLM执行请求的全量cluster ID。  | 
|
设置LLM执行请求的增量cluster ID。  | 
|
获取LLM执行请求的增量cluster ID。  | 
|
设置LLM执行请求的公共前缀ID。  | 
|
获取LLM执行请求的公共前缀ID。  | 
|
设置LLM执行请求的实际句子长度。  | 
|
获取LLM执行请求的实际句子长度。  | 
LLMEngine
接口名称  | 
简介  | 
|---|---|
创建LLMEngine对象。  | 
|
LLMEngine对象析构函数。  | 
|
获取增量模型空闲的block数量。  | 
|
进行device间断链。  | 
|
进行device间建链。  | 
|
LLM Engine的资源释放函数。  | 
|
将KV从本暂存区中合并到batch中,该接口会释放暂存区中的KV。  | 
|
从Prompt cluster拉取该request对应的KV到本Decode cluster的暂存区中,每次调用成功后都会覆盖暂存区之前的KV。  | 
|
外部告知Req已结束。  | 
|
异步执行增量图。  | 
|
LLM_OPTION_BATCH_MODE为manual时,批量执行Decode推理。  | 
|
LLM_OPTION_BATCH_MODE为manual时,批量执行Decode推理。  | 
|
执行增量图。  | 
|
LLM_OPTION_BATCH_MODE为manual时,批量执行全量图。  | 
|
执行全量图。  | 
|
异步执行全量图。  | 
|
释放公共前缀。  | 
|
预加载公共前缀。  | 
|
查询PagedAttention场景下的blocks数量。  | 
|
初始化LLM Engine的资源。  | 
|
初始化LLM Engine的资源。  | 
|
添加模型,返回模型ID。  | 
LLM-DataDist
接口名称  | 
简介  | 
|---|---|
分配Cache。  | 
|
释放Cache。  |