特性介绍

SplitFuse特性的目的是将长提示词分解成更小的块,并在多个forward step(即通过多轮更短的Prefill代替原本的单次Prefill)中进行调度,只有最后一块的forward完成后才开始这个提示词的生成。将短提示词组合以精确填充step的空隙,每个step的计算量基本相等,达到所有请求平均延迟更稳定的目的。

其优势主要包括以下几点: