并行解码

在传统的推理过程中，需要逐个token的进行串行解码，导致时间消耗与生成的token数量成正比，这个缺点在实施逐步解码的情况下尤为明显，为了增强这个过程，引入了lookahead。在decode阶段从n-gram中获取多个候选Token，进行并行解码，提升模型的推理速度。

额外传入qSeqLens作为输入tensor，变量“calcType”置为CALC_TYPE_SPEC。

Atlas A2 训练系列产品/Atlas 800I A2 推理产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品：变量“maskType”置为MASK_TYPE_NORM或MASK_TYPE_SPEC。
Atlas 推理系列产品：变量“maskType”置为UNDEFINED或MASK_TYPE_SPEC。

无

父主题： 功能列表