简介
概述
MindIE LLM(Mind Inference Engine Large Language Model,大语言模型)是MindIE下的大语言模型推理组件,基于昇腾硬件提供业界通用大模型推理能力,同时提供多并发请求的调度功能,支持Continuous Batching、Page Attention、FlashDecoding等加速特性,使能用户高性能推理需求。
MindIE LLM主要提供大模型推理和大模型调度C++ API。
本手册有助于用户快速了解MindIE LLM,完成大模型推理的部署测试。
MindIE LLM架构

MindIE LLM总体架构分为四层:Server、LLM Manager、Text Generator和Modeling。
- Server:推理服务端,提供模型推理服务化能力。EndPoint面向推理服务开发者提供RESTful接口,推理服务化协议和接口封装,支持Triton/OpenAI/TGI/vLLM主流推理框架请求接口。
- LLM Manager:负责状态管理及任务调度,基于调度策略实现用户请求组batch,统一内存池管理kv缓存,返回推理结果,提供状态记录接口。- LLM manager Interface:MindIE LLM推理引擎的对外接口。
 - Engine:负责将schedule,executor,worker等协同串联起来,利用组件间的协同,实现多场景下请求的推理处理能力。
- Scheduler: 在1个DP域内,将多条请求在Prefill或者Decode阶段组成batch,实现计算和通信的充分利用。
- Block manager:管理在DP内的kv资源,支持池化后,支持对offload的kv位置感知。
- Executor:将调度完成的信息分发给Text Generator模块。支持跨机、跨卡的任务下发。
 
- Text Generator:负责模型配置、初始化、加载、自回归推理流程、后处理等,向LLM Manager提供统一的自回归推理接口,支持并行解码插件化运行。- Preprocess:将调度的任务转换为模型的输入。
- Generator:对模型运行过程的抽象。
- Sampler:对模型输出的logits做token选择、停止判断、上下文更新与清除。
 
- Modeling:提供性能调优后的模块和内置模型,支持ATB Models(Ascend Transformer Boost Models)和MindSpore Models两种框架。 
功能特性
MindIE LLM功能特性主要分为模型基础能力、调度相关能力等维度。MindIE LLM支持的特性请参见特性列表。
- 模型基础能力简介- 基础能力包括浮点、量化、并行。
表1 浮点特性 浮点特性 浮点能力 float16 √ bfloat16 √ MindIE LLM主打高性能推理,当前仅支持float16、bfloat16浮点格式。可通过配置模型config.json中'torch_dtype'字段进行类型修改。 表2 量化特性 量化特性 per channel per token per group W8A8 √ √ × W8A16 √ × √ KV Cache int8 √ × × W8A8稀疏量化 √ × × MindIE LLM提供多种量化选择进行推理加速,用户可根据自己的需要进行选择,具体量化权重获取、量化推理运行请参考量化章节进行配置。 表3 并行特性 并行特性 并行能力 TP(Tensor Parallelism) √ DP(Data Parallelism) √ PP(Pipeline Parallelism) × EP(Expert Parallelism) √ CP (Context Parallel) √ SP (Sequence Parallel) √ MindIE LLM提供TP、DP、EP、CP和SP并行策略。 
- 模型能力MindIE LLM提供如下所示模型预置能力,用户可根据需要进行使用,也可以对模型进行自定义开发迁移。 - LLaMA
- Baichuan
- Mixtral
- Qwen
- Bloom
- DeepSeek
- GLM
 
 
- 基础能力包括浮点、量化、并行。
- 调度相关能力简介
表4 服务化特性 服务化特性 服务化能力 MindIE Motor √