产品简介
为优化技术架构演进路线,MindIE服务化框架将于下个版本(版本号:2.0.RC1)起停止对开源第三方服务化框架的默认对接支持。本次调整不影响已发布的1.0.0版本功能完整性,您可继续使用当前版本的既有能力。
MindIE推理引擎提供多层开放的接口,满足推理应用在各层接入的诉求,让用户能够按自身需求复用MindIE的推理加速能力。
当前提供了四种第三方推理服务框架(vLLM、TGI、Triton和TEI)接入MindIE推理引擎的示例,一方面在昇腾环境使能更多的推理服务框架,加速推理性能,满足更多用户的诉求;另一方面为MindIE推理引擎各层接口的使用提供参考样例,帮助用户更加快速、高效的使用MindIE推理引擎。
vLLM、TGI、Triton、TEI均为当下相对流行的推理服务框架,他们都具有不错的性能和优秀的易用性,为广大用户所青睐。这里我们提供了这四种推理服务框架端到端的适配、使用说明。各个框架适配MindIE的架构图如图所示:

- Triton由于没有自己的请求调度逻辑,请求的推理执行完全依赖backend,我们将Triton对接至MindIE的调度层LLM Manager,由MindIE负责请求调度与模型执行,完成Triton框架在昇腾环境的推理加速。
- vLLM、TGI框架具备完整的推理功能,我们将他们对接至MindIE的Text Generator接口,复用框架原有的服务层与调度层,不改变框架自身的对外接口,完全保留用户调用方式,同时用MindIE替换模型层以下的功能,复用了MindIE的推理加速能力。
- TEI框架为Embedding类模型服务框架,与LLM模型不同,Embedding模型无需迭代推理,一次推理完成后直接返回,故TEI无需调度与KV Block管理机制,只需模型推理即可。将TEI对接至MindIE的模型层,完成推理加速适配。