昇腾社区首页
中文
注册

并行解码

功能说明

在传统的推理过程中,需要逐个token的进行串行解码,导致时间消耗与生成的token数量成正比,这个缺点在实施逐步解码的情况下尤为明显,为了增强这个过程,引入了lookahead。在decode阶段从n-gram中获取多个候选Token,进行并行解码,提升模型的推理速度。

开启方式

额外传入qSeqLens作为输入tensor,变量“calcType”置为CALC_TYPE_SPEC。

  • Atlas A2 训练系列产品/Atlas 800I A2 推理产品Atlas A3 推理系列产品/Atlas A3 训练系列产品:变量“maskType”置为MASK_TYPE_NORM或MASK_TYPE_SPEC。
  • Atlas 推理系列产品:变量“maskType”置为UNDEFINED或MASK_TYPE_SPEC。

约束说明