在LLM的推理场景中,传统的Auto-Regressive Decoding慢,是因为step-by-step导致了并发性不够。推理阶段属于内存带宽受限而计算资源过剩的阶段。因此,并行解码特性就是采用处理器中常用的“Speculative Execution”优化技术,通过额外的计算资源完成推测执行,提升并发性。但是,由于开启并行解码会使用Prompt输入维护前缀树和草稿token map,所以会对首Token时延有一定影响。
并行解码的优势:
针对足够长度的输入输出或代码生成等场景的小batch推理,并行解码特性可利用算力优势弥补访存带宽受限的影响,提升算力利用率。同时因为通过验证token的比率会直接影响到并行解码的收益,因此贪婪场景更能充分发挥并行解码的效果,而采样或惩罚类操作会影响并行解码的收益空间。
为了发挥并行解码的优势,需满足如下前提:
目前支持两种并行解码算法,差异主要在于候选token生成的方式不同。如表1所示。