简介

概述

MindIE LLM（Mind Inference Engine Large Language Model，大语言模型）是MindIE下的大语言模型推理组件，基于昇腾硬件提供业界通用大模型推理能力，同时提供多并发请求的调度功能，支持Continuous Batching、Page Attention、FlashDecoding等加速特性，使能用户高性能推理需求。

MindIE LLM主要提供大模型推理和大模型调度C++ API。

本手册有助于用户快速了解MindIE LLM，完成大模型推理的部署测试。

MindIE LLM架构

图1 MindIE LLM架构图

MindIE LLM总体架构分为四层：Server、LLM Manager、Text Generator和Modeling。

Server：推理服务端，提供模型推理服务化能力。EndPoint面向推理服务开发者提供RESTful接口，推理服务化协议和接口封装，支持Triton/OpenAI/TGI/vLLM主流推理框架请求接口。

LLM Manager：负责状态管理及任务调度，基于调度策略实现用户请求组batch，统一内存池管理kv缓存，返回推理结果，提供状态记录接口。
- LLM manager Interface：MindIE LLM推理引擎的对外接口。
- Engine：负责将schedule，executor，worker等协同串联起来，利用组件间的协同，实现多场景下请求的推理处理能力。
- Scheduler: 在1个DP域内，将多条请求在Prefill或者Decode阶段组成batch，实现计算和通信的充分利用。
- Block manager：管理在DP内的kv资源，支持池化后，支持对offload的kv位置感知。
- Executor：将调度完成的信息分发给Text Generator模块。支持跨机、跨卡的任务下发。
Text Generator：负责模型配置、初始化、加载、自回归推理流程、后处理等，向LLM Manager提供统一的自回归推理接口，支持并行解码插件化运行。
- Preprocess：将调度的任务转换为模型的输入。
- Generator：对模型运行过程的抽象。
- Sampler：对模型输出的logits做token选择、停止判断、上下文更新与清除。
Modeling：提供性能调优后的模块和内置模型，支持ATB Models（Ascend Transformer Boost Models）和MindSpore Models两种框架。
- 内置模块包括Attention、Embedding、ColumnLinear、RowLinear、MLP（multilayer perceptron），支持Weight在线Tensor切分加载。
- 内置模型使用内置模块进行组网拼接，支持Tensor切分，支持多种量化方式，用户亦可参照样例通过内置模块组网自定义模型。
- 组网后的模型经过编译优化后，会生成能在昇腾NPU设备上加速推理的可执行图。

功能特性

MindIE LLM功能特性主要分为模型基础能力、调度相关能力等维度。MindIE LLM支持的特性请参见特性列表。

模型基础能力简介

基础能力包括浮点、量化、并行。

表1 浮点特性
浮点特性	浮点能力
float16	√
bfloat16	√

MindIE LLM主打高性能推理，当前仅支持float16、bfloat16浮点格式。可通过配置模型config.json中'torch_dtype'字段进行类型修改。

表2 量化特性
量化特性	per channel	per token	per group
W8A8	√	√	×
W8A16	√	×	√
KV Cache int8	√	×	×
W8A8稀疏量化	√	×	×

MindIE LLM提供多种量化选择进行推理加速，用户可根据自己的需要进行选择，具体量化权重获取、量化推理运行请参考量化章节进行配置。

表3 并行特性
并行特性	并行能力
TP（Tensor Parallelism）	√
DP（Data Parallelism）	√
PP（Pipeline Parallelism）	×
EP（Expert Parallelism）	√
CP (Context Parallel)	√
SP (Sequence Parallel)	√

MindIE LLM提供TP、DP、EP、CP和SP并行策略。

模型能力
MindIE LLM提供如下所示模型预置能力，用户可根据需要进行使用，也可以对模型进行自定义开发迁移。
- LLaMA
- Baichuan
- Mixtral
- Qwen
- Bloom
- DeepSeek
- GLM

调度相关能力简介
表4 服务化特性
服务化特性

服务化能力

MindIE Motor

√