简介

概述

MindIE Turbo是由华为在昇腾硬件上开发的LLM推理引擎加速插件库，规划了自研的大语言模型优化算法和与推理引擎框架相关的优化。MindIE Turbo会提供一系列模块化与插件化的接口，使能三方推理引擎接入并加速。其中包含的模块优化，会跟随实际演进情况，在不同版本中迁移到社区仓库中，会做单独说明。

相较于MindIE Turbo 2.0.RC2版本，MindIE Turbo 2.1.RC1版本将Quantize模块中的W8A8对应的量化能力迁移至vLLM Ascend支持，但Quantize模块中的Attention量化仅在MindIE Turbo 2.0.RC2版本支持，未在2.1.RC1版本进行迁移适配。
相较于MindIE Turbo 2.0.RC2版本，MindIE Turbo 2.1.RC1版本将高性能算子使能的能力迁移至vLLM Ascend。

MindIE Turbo架构

图1 MindIE Turbo架构

支持框架

vLLM：vLLM是一款开源的大语言模型高速推理框架，旨在极大地提升实时场景下语言模型服务的吞吐量与内存使用率，提供易用、快速、低成本的LLM服务。目前MindIE Turbo已经支持通过vLLM Ascend一键叠加到vLLM框架并进行推理加速使能，对应架构图中的vLLM Adaptor。

使用场景

MindIE Turbo是华为自研的性能插件，其中规划了优化算法，推理框架优化，目前支持对vLLM的适配。通过对接vLLM+vLLM Ascend，能提供更强的性能和更多推理优化算法。

实际使用时，只需要在对应Python环境内安装MindIE Turbo，在执行vLLM的过程中，vLLM Ascend会自动检测MindIE Turbo并使能，MindIE Turbo通过补丁的形式对vLLM、vLLM Ascend的部分接口实现进行替换或装饰，不需要修改任何代码即可完成性能优化。