产品简介

为优化技术架构演进路线，MindIE服务化框架将于下个版本（版本号：2.0.RC1）起停止对开源第三方服务化框架的默认对接支持。本次调整不影响已发布的1.0.0版本功能完整性，您可继续使用当前版本的既有能力。

MindIE推理引擎提供多层开放的接口，满足推理应用在各层接入的诉求，让用户能够按自身需求复用MindIE的推理加速能力。

当前提供了四种第三方推理服务框架（vLLM、TGI、Triton和TEI）接入MindIE推理引擎的示例，一方面在昇腾环境使能更多的推理服务框架，加速推理性能，满足更多用户的诉求；另一方面为MindIE推理引擎各层接口的使用提供参考样例，帮助用户更加快速、高效的使用MindIE推理引擎。

vLLM、TGI、Triton、TEI均为当下相对流行的推理服务框架，他们都具有不错的性能和优秀的易用性，为广大用户所青睐。这里我们提供了这四种推理服务框架端到端的适配、使用说明。各个框架适配MindIE的架构图如图所示：

Triton由于没有自己的请求调度逻辑，请求的推理执行完全依赖backend，我们将Triton对接至MindIE的调度层LLM Manager，由MindIE负责请求调度与模型执行，完成Triton框架在昇腾环境的推理加速。
vLLM、TGI框架具备完整的推理功能，我们将他们对接至MindIE的Text Generator接口，复用框架原有的服务层与调度层，不改变框架自身的对外接口，完全保留用户调用方式，同时用MindIE替换模型层以下的功能，复用了MindIE的推理加速能力。
TEI框架为Embedding类模型服务框架，与LLM模型不同，Embedding模型无需迭代推理，一次推理完成后直接返回，故TEI无需调度与KV Block管理机制，只需模型推理即可。将TEI对接至MindIE的模型层，完成推理加速适配。