特性介绍 SplitFuse特性的目的是将长提示词分解成更小的块,并在多个forward step(即通过多轮更短的Prefill代替原本的单次Prefill)中进行调度,只有最后一块的forward完成后才开始这个提示词的生成。将短提示词组合以精确填充step的空隙,每个step的计算量基本相等,达到所有请求平均延迟更稳定的目的。 其优势主要包括以下几点: 提高响应速度:减少长提示词处理延迟,提升用户体验。 提升效率:通过合理组合短提示词,保持模型高吞吐量运行。 增强一致性:统一前向传递大小,降低延迟波动,使生成频率更稳定。 父主题: Splitfuse