特性介绍
该特性主要适用于对大模型推理吞吐和时延有要求,且需要满足SLO(Service Level Objective,服务级别目标)时延指标的场景。
在主流LLM推理系统(如vLLM、TGI)中,对Prefill和Decode阶段的请求的调度是分离的,并且分时使用同一份计算资源的。调度选择Prefill请求或者Decode请求做推理,是影响吞吐和时延的因素之一。但是在PD混部场景下,SLO问题无法像PD分离一样,完全规避两个阶段之间的相互干扰,因此需要更加严格的调度策略和时延控制。
该特性的核心是感知SLO时延,延迟响应避免TTFT(Time to First Token,首Token时延 )和TPOT(Time Per Output Token,每个输出Token的延迟(不含首token))超时。通过配置Prefill阶段和Decode阶段的SLO期望时延,可达到平衡两者时延,使其在都不超时的情况下,收益最大化的目的。
父主题: Buffer Response