logN缩放

功能

针对Qwen长序列场景,使用LogN缩放注意力。

其公式为:

其中:m为训练长度,n为预测长度。

开启方式

将参数“scaleType置”为infer::PagedAttentionParam::SCALE_TYPE_LOGN时即可使用LogN缩放。

使用LogN缩放时,PagedAttentionOperation 新增一个 输入tensor 名为 logN,其具体规格如下:

名字

维度

数据类型

格式

cpu or npu

logN

增量阶段: [batch size]

Atlas 800I A2 推理产品/Atlas A2 训练系列产品Atlas A3 推理系列产品/Atlas A3 训练系列产品:float32;

Atlas 推理系列产品:float16

ND

NPU

其它输入tensor没有变化。

特殊约束