并行解码
功能说明
在传统的推理过程中,需要逐个token的进行串行解码,导致时间消耗与生成的token数量成正比,这个缺点在实施逐步解码的情况下尤为明显,为了增强这个过程,引入了lookahead。在decode阶段从n-gram中获取多个候选Token,进行并行解码,提升模型的推理速度。
开启方式
额外传入qSeqLens作为输入tensor,变量“calcType”置为CALC_TYPE_SPEC。
Atlas A2 训练系列产品 /Atlas 800I A2 推理产品 和Atlas A3 推理系列产品 /Atlas A3 训练系列产品 :变量“maskType”置为MASK_TYPE_NORM或MASK_TYPE_SPEC。Atlas 推理系列产品 :变量“maskType”置为UNDEFINED或MASK_TYPE_SPEC。
约束说明
无
父主题: 功能列表