SplitFuse-调度特性-特性介绍-MindIE LLM-大语言模型推理框架-MindIE3.0.0开发文档-昇腾社区

[object Object]

SplitFuse特性的目的是将长prompt request分解成更小的块，并在多个forward step中进行调度，只有最后一块的forward完成后才开始这个prompt request的生成。将短prompt request组合以精确填充step的空隙，每个step的计算量基本相等，达到所有请求平均延迟更稳定的目的。

当MindIE在默认情况下使用PD混部策略，Prefill和Decode阶段请求不会同时被组合成一个batch。打开SplitFuse特性后，MindIE会在优先处理Decode请求的基础上，且batch小于maxBatchSize的情况下在同一批次中加入Prefill请求。

当该次处理的feedforward大于splitChunk tokens时，SplitFuse会对其进行切分，解释如下所示：

每一推理轮次中：，其中：
Prefill阶段的tokens为输入token数量，Decode阶段每个请求为1token：

两个关键行为：

长prompts被分解成更小的块，并在多个迭代中进行调度，只有最后一遍迭代执行输出生成token。
短prompts也可能切分成小块，以确保计算效率发挥最佳。

其优势主要包括：

提高响应速度：减少长prompt处理延迟，提升用户体验。
提升效率：通过合理组合短prompt，保持模型高吞吐量运行。
增强一致性：统一前向传递大小，降低延迟波动，使生成频率更稳定。

[object Object]

Atlas 800I A2 推理服务器和 Atlas 800I A3 超节点服务器支持此特性。
LLaMA3.1-70B浮点模型，Qwen2，Qwen2.5，Qwen3系列模型支持此特性。
该特性支持的量化特性：W8A8，其他量化特性暂不支持。
该特性不能和Multi-LoRA、Function Call、并行解码、MTP、长序列特性同时使用。
该特性支持n、best_of、use_beam_search后处理参数。

[object Object]

开启SplitFuse特性，需要配置的补充参数如和所示。

表 1 SplitFuse特性补充参数1：ModelDeployConfig中的ModelConfig参数 [object Object][object Object]

[object Object]undefined

表 2 SplitFuse特性补充参数2：ScheduleConfig的参数 [object Object][object Object]

[object Object]undefined

[object Object]

打开Server的config.json文件。
- whl包安装方式：
  
  [object Object]
- run包安装方式：
  
  [object Object]
配置服务化参数。在Server的config.json文件添加“plugin_params“、“templateType“参数。对于性能调优，需要编辑config.json配置文件中的ScheduleConfig部分，建议在需要固定大小的切块长度时配置prefillChunkSize参数，其余场景可使用默认的动态切分配置。

SplitFuse参数请参见和，服务化参数说明请参见章节，参数配置示例如下。

[object Object]
启动服务。
- whl包安装方式：
  
  [object Object]
- run包安装方式：
  
  [object Object]
使用AISBench工具进行性能测试，详情请参见《快速入门》中的“”章节。
根据首Token时延和Decode时延的实际数据调整参数。
- 首Token时延和Decode时延（均值，P90）都满足约束阈值，则加大“RequestRate“的值。
- Decode时延均值位于约束阈值以内，而首Token时延均值大于约束阈值。则“RequestRate“已大于系统吞吐，为满足约束需降低“RequestRate“的值。
- 当首Token时延均值和Decode时延均值满足阈值约束，而Decode时延P90不满足均值时，则考虑降低ChunkSize减小切分，但该操作可能影响吞吐。
- 在输入问题长短不一的场景下，PD混部策略产生更多调度空泡；而SplitFuse特性相对PD混部策略受调度空泡影响较少，所以相对PD混部策略的优势会增加。