MindIE Service支持的特性如表1所示。
特性 |
说明 |
---|---|
Multi Lora |
使用Multi Lora来执行基础模型和不同的LoRA权重进行推理,其特性介绍详情请参见Multi LoRA。 |
多模态理解 |
多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解。 |
Function Call |
支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call。 |
Splitfuse |
将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见Splitfuse。 |
Prefix Cache |
复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache。 |
Buffer Response |
该特性通过配置Prefill阶段和Decode阶段的SLO期望时延,可达到平衡两者时延,使其在都不超时的情况下,收益最大化的目的。其特性介绍详情请参见Buffer Response。 |
异步调度 |
对于maxBatchSize较大,且输入输出长度比较长的场景,该特性使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时,避免NPU计算资源和显存资源浪费。其特性介绍详情请参见异步调度。 |
分布式多机部署 |
使用多台推理机协同工作,共同完成整个模型的推理。其特性介绍详情请参见分布式多机部署。 |
PD分离部署 |
模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理。其特性介绍详情请参见PD分离部署。 |
模型量化 |
其特性介绍详情请参见模型量化。 |