特性概述

MindIE Service支持的特性如表1所示。

表1 特性介绍

特性

说明

Multi Lora

使用Multi Lora来执行基础模型和不同的LoRA权重进行推理,其特性介绍详情请参见Multi LoRA

多模态理解

多模态理解模型是指能够处理和理解包括多种模态数据的深度学习模型。其特性介绍详情请参见多模态理解

Function Call

支持Function Call函数调用,使大模型具备使用工具能力。其特性介绍详情请参见Function Call

Splitfuse

将长提示词分解成更小的块,并在多个forward step中进行调度,降低Prefill时延。其特性介绍详情请参见Splitfuse

Prefix Cache

复用跨session的重复token序列对应的KV Cache,减少一部分前缀token的KV Cache计算时间,从而减少Prefill的时间。其特性介绍详情请参见Prefix Cache

Buffer Response

该特性通过配置Prefill阶段和Decode阶段的SLO期望时延,可达到平衡两者时延,使其在都不超时的情况下,收益最大化的目的。其特性介绍详情请参见Buffer Response

异步调度

对于maxBatchSize较大,且输入输出长度比较长的场景,该特性使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时,避免NPU计算资源和显存资源浪费。其特性介绍详情请参见异步调度

分布式多机部署

使用多台推理机协同工作,共同完成整个模型的推理。其特性介绍详情请参见分布式多机部署

PD分离部署

模型推理的Prefill阶段和Decode阶段分别实例化部署在不同的机器资源上同时进行推理。其特性介绍详情请参见PD分离部署

模型量化

其特性介绍详情请参见模型量化