昇腾社区首页
中文
注册

待废弃接口列表

如下接口不再演进。

LLM Engine(large language model Engine),支持推理全量增量分离部署,全量图和增量图一起部署时,会造成计算资源的浪费,原因如下:

  • 全量图计算对算力要求高,大batch下算力bound或导致时延体验下降;同batch内多个inputSeq实际长度不同。
  • 增量图单次计算量小,需要高batch提升算力利用率;KV Cache容量需求高;batch内输出长度(迭代次数)不一致。

LLM Engine提供管理图的部署和调度执行功能,根据传入的图是全量图还是增量图来执行对应的部署和调度逻辑。

相关接口存放在:"${INSTALL_DIR}/runtime/include/ge/llm_engine.h"、"${INSTALL_DIR}/runtime/include/ge/llm_engine_types.h"、"${INSTALL_DIR}/runtime/include/ge/llm_error_codes.h"和"${INSTALL_DIR}/runtime/include/llm_datadist/llm_datadist.h"。${INSTALL_DIR}请替换为CANN软件安装后文件存储路径。若安装的Ascend-cann-toolkit软件包,以root安装举例,则安装后文件存储路径为:/usr/local/Ascend/ascend-toolkit/latest。

待废弃接口列表如下。

LLMReq

表1 LLMReq类接口

接口名称

简介

SetReqId

设置LLM执行请求的请求ID。

GetReqId

获取LLM执行请求的ID。

SetPromptLength

设置LLM执行请求的全量实际句子长度。

GetPromptLength

获取LLM执行请求的全量实际句子长度。

SetPromptClusterId

设置LLM执行请求所属的cluster ID。

GetPromptClusterId

获取LLM执行请求的全量cluster ID。

SetDecoderClusterId

设置LLM执行请求的增量cluster ID。

GetDecoderClusterId

获取LLM执行请求的增量cluster ID。

SetPrefixId

设置LLM执行请求的公共前缀ID。

GetPrefixId

获取LLM执行请求的公共前缀ID。

SetSequenceLen

设置LLM执行请求的实际句子长度。

GetSequenceLen

获取LLM执行请求的实际句子长度。

LLMEngine

表2 LLMEngine类接口

接口名称

简介

LLMEngine构造函数

创建LLMEngine对象。

~LLMEngine()

LLMEngine对象析构函数。

FetchLLMModelStatus

获取增量模型空闲的block数量。

UnlinkClusters

进行device间断链。

LinkClusters

进行device间建链。

LLMEngineFinalize

LLM Engine的资源释放函数。

MergeKv

将KV从本暂存区中合并到batch中,该接口会释放暂存区中的KV。

PullKv

从Prompt cluster拉取该request对应的KV到本Decode cluster的暂存区中,每次调用成功后都会覆盖暂存区之前的KV。

LLMReqComplete

外部告知Req已结束。

RunDecoderAsync

异步执行增量图。

RunDecoder(批量执行,请求列表类型=LLMReq)

LLM_OPTION_BATCH_MODE为manual时,批量执行Decode推理。

RunDecoder(批量执行,请求ID类型=uint64_t)

LLM_OPTION_BATCH_MODE为manual时,批量执行Decode推理。

RunDecoder(增量图)

执行增量图。

RunPrompt(批量执行)

LLM_OPTION_BATCH_MODE为manual时,批量执行全量图。

RunPrompt(非批量执行)

执行全量图。

RunPromptAsync

异步执行全量图。

ReleasePromptPrefix

释放公共前缀。

PreloadPromptPrefix

预加载公共前缀。

FetchLLMEngineStatus

查询PagedAttention场景下的blocks数量。

LLMEngineInitialize

初始化LLM Engine的资源。

LLMEngineInitializeV2

初始化LLM Engine的资源。

AddLLMModel

添加模型,返回模型ID。

LLM-DataDist

表3 LLM-DataDist

接口名称

简介

AllocateCache

分配Cache。

DeallocateCache

释放Cache。