特性概述
MindIE Motor支持的特性如表1所示。
特性 |
说明 |
---|---|
Multi LoRA |
使用Multi LoRA来执行基础模型和不同的LoRA权重进行推理,其特性介绍详情请参见Multi LoRA。 |
多模态理解 |
多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解。 |
Function Call |
支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call。 |
SplitFuse |
将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见SplitFuse。 |
并行解码 |
利用算力优势弥补访存带宽受限的影响,提升算力利用率。其特性介绍详情请参见并行解码。 |
MTP |
在推理过程中,模型不仅预测下一个token,而且会同时预测多个token,从而显著提升模型生成速度。其特性介绍详情请参见MTP。 |
Prefix Cache |
复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache。 |
Buffer Response |
该特性通过配置Prefill阶段和Decode阶段的SLO期望时延,可达到平衡两者时延,使其在都不超时的情况下,收益最大化的目的。其特性介绍详情请参见Buffer Response。 |
异步调度 |
对于maxBatchSize较大,且输入输出长度比较长的场景,该特性使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时,避免NPU计算资源和显存资源浪费。其特性介绍详情请参见异步调度。 |
Multi Step推理 |
允许推理引擎在一次调度中进行异步多次前向推理,以达到提升吞吐的效果。其特性介绍详情请参见Multi Step推理。 |
PD分离部署 |
模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理。其特性介绍详情请参见PD分离部署。 |
模型量化 |
其特性介绍详情请参见模型量化。 |