MindIE Service支持的特性如表1所示。
特性 |
说明 |
---|---|
Multi-Lora |
使用Multi-Lora来执行基础模型和不同的LoRA权重进行推理,其特性介绍详情请参见Multi-LoRA。 |
多模态理解 |
多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解。 |
Function Call |
支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call。 |
Splitfuse |
将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见Splitfuse。 |
Prefix Cache |
复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache。 |
分布式多机部署 |
其特性介绍详情请参见分布式多机部署。 |
PD分离部署 |
其特性介绍详情请参见PD分离部署。 |
模型量化 |
其特性介绍详情请参见模型量化。 |