昇腾社区首页
EN
注册
开发者
下载

特性列表

MindIE LLM支持的特性包括基础特性、长序列特性、调度特性、加速特性和交互特性。

基础特性

基础特性如表1所示。

表1 基础特性介绍

特性类型

特性名称

说明

量化

量化

通过降低模型数值精度,从而减小模型体积、提升推理速度并降低能耗。其特性介绍详情请参见量化

多模态理解

多模态理解

多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解

Multi-Lora

Multi-Lora

使用Multi-LoRA来执行基础模型和不同的LoRA权重进行推理。其特性介绍详情请参见Multi-LoRA

MoE

MoE

通过引入稀疏激活的专家网络,在不显著增加计算成本的前提下大幅扩展模型参数规模,从而提升模型能力。其特性介绍详情请参见MoE

负载均衡

降低NPU卡间的不均衡度,从而提升模型推理的性能。其特性介绍详情请参见负载均衡

共享专家外置

将共享专家独立部署在单独的NPU卡上,与路由专家/冗余专家分离。其特性介绍详情请参见共享专家外置

MLA

利用低秩键值联合压缩来消除推理时键值缓存的瓶颈,从而支持高效推理。其特性介绍详情请参见MLA

并行策略

Expert Parallel

通过将专家分别部署在不同的设备上,实现专家级别的并行计算。其特性介绍详情请参见Expert Parallel

Data Parallel

将推理请求划分为多个批次,并将每个批次分配给不同的设备进行并行处理。其特性介绍详情请参见Data Parallel

Tensor Parallel

通过将张量(如权重矩阵、激活值等)在多个设备(如NPU)之间进行切分 ,从而实现模型的分布式推理。其特性介绍详情请参见Tensor Parallel

长序列特性

长序列特性如表2所示。

表2 长序列特性介绍

特性

说明

Context Parallel

通过将长序列在上下文维度进行切分,分配到不同设备并行处理,减少首token响应时间,其特性介绍详情请参见Context Parallel

Sequence Parallel

通过对KV Cache进行切分,使得每个sprank保存的KV Cache各不相同,达到节省显存,支持长序列的功能,其特性介绍详情请参见Sequence Parallel

调度特性

调度特性如表3所示。

表3 调度特性介绍

特性

说明

异步调度

对于maxBatchSize较大,且输入输出长度比较长的场景,该特性使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时,避免NPU计算资源和显存资源浪费。其特性介绍详情请参见异步调度

PD分离

将模型推理的Prefill阶段和Decode阶段,分别实例化部署在不同的机器资源上同时进行推理。其特性介绍详情请参见PD分离

SplitFuse

将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见SplitFuse

SLO调度优化

为应对客户端的高并发请求,在确保SLO的前提下提升系统吞吐量。其特性介绍详情请参见SLO调度优化

加速特性

加速特性如表4所示。

表4 加速特性介绍

特性

说明

Micro Batch

批处理过程中,将数据切分为更小粒度的多个batch运行,使得硬件资源得以充分利用,以提高推理吞吐。其特性介绍详情请参见Micro Batch

Buffer Response

通过配置Prefill阶段和Decode阶段的SLO期望时延,可达到平衡两者时延,使其在都不超时的情况下,收益最大化的目的。其特性介绍详情请参见Buffer Response

并行解码

利用算力优势弥补访存带宽受限的影响,提升算力利用率。其特性介绍详情请参见并行解码

MTP

在推理过程中,模型不仅预测下一个token,而且会同时预测多个token,从而显著提升模型生成速度。其特性介绍详情请参见MTP

Prefix Cache

复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache

KV Cache池化

支持将DRAM甚至SSD等更大容量的存储介质纳入前缀缓存池,从而突破HBM的容量限制。该特性有效提升了Prefix Cache的命中率,显著降低大模型推理的成本。其特性介绍详情请参见KV Cache池化

交互特性

交互特性如表5所示。

表5 交互特性介绍

特性

说明

Function Call

支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call

思考解析

对大模型的输出内容进行结构化解析,将思考过程和输出结果进行分离。其特性介绍详情请参见思考解析