第三方框架适配
主要介绍一下第三方框架每个抽象出来的模块需要适配的具体的点。
- llm_datadist的KV Cache申请接口调用在框架的KV Cache管理模块调用,调用后转成框架的kv对象。
- 框架的推理模块需要拆分为Prefill和Decoder,需要能够达到下面的效果。
- P侧调用一次模型推理仅执行Prefill模型,并输出Decoder阶段推理所需要的输入。
- D侧接收P侧推理完的数据作为新请求的输入,调用llm_datadist提供的pull kv的接口,拉取kv后,不会进入Prefill的流程,而直接进行增量推理。
- 在框架的资源释放模块先调用llm_datadist释放KV Cache资源的相关接口,再调用unlink接口,最后调用llm_datadist的finalize释放所有资源。
父主题: 仅支持D2D传输