在LLM的推理场景中，传统的Auto-Regressive Decoding慢，是因为step-by-step导致了并发性不够。推理阶段属于内存带宽受限而计算资源过剩的阶段。因此，并行解码特性就是采用处理器中常用的“Speculative Execution”优化技术，通过额外的计算资源完成推测执行，提升并发性。但是，由于开启并行解码会使用Prompt输入维护前缀树和草稿token map，所以会对首Token时延有一定影响。

并行解码的优势：

针对足够长度的输入输出或代码生成等场景的小batch推理，并行解码特性可利用算力优势弥补访存带宽受限的影响，提升算力利用率。同时因为通过验证token的比率会直接影响到并行解码的收益，因此贪婪场景更能充分发挥并行解码的效果，而采样或惩罚类操作会影响并行解码的收益空间。

为了发挥并行解码的优势，需满足如下前提：

当前的并发数不高，属于内存带宽受限、计算资源有冗余的情况。
有较长的输入作为猜测token的初步来源。
并行解码主要通过减少推理步数获取增益，因此需要一定长度的输出才有性能提升效果。

目前支持两种并行解码算法，差异主要在于候选token生成的方式不同。如表1所示。

表1 并行解码算法
并行解码算法	候选token生成方式	适用场景
memory_decoding	利用trie-tree（前缀树）缓存模型历史的输入输出，从中获取候选token。	代码生成或检索类场景。
lookahead	基于jacobi迭代并辅以Prompt以及输出结果生成候选token。	文本生成、对话系统及多样化查询回答。

特性介绍