特性介绍

该特性主要适用于对大模型推理吞吐和时延有要求，且需要满足SLO（Service Level Objective，服务级别目标）时延指标的场景。

在主流LLM推理系统（如vLLM、TGI）中，对Prefill和Decode阶段的请求的调度是分离的，并且分时使用同一份计算资源的。调度选择Prefill请求或者Decode请求做推理，是影响吞吐和时延的因素之一。但是在PD混部场景下，SLO问题无法像PD分离一样，完全规避两个阶段之间的相互干扰，因此需要更加严格的调度策略和时延控制。

该特性的核心是感知SLO时延，延迟响应避免TTFT（Time to First Token，首Token时延）和TPOT（Time Per Output Token，每个输出Token的延迟（不含首token））超时。通过配置Prefill阶段和Decode阶段的SLO期望时延，可达到平衡两者时延，使其在都不超时的情况下，收益最大化的目的。

父主题： Buffer Response