针对Qwen长序列场景，使用LogN缩放注意力。

其公式为：

$\text{[math]}$

其中：m为训练长度，n为预测长度。

将参数“scaleType置”为infer::PagedAttentionParam::SCALE_TYPE_LOGN时即可使用LogN缩放。

使用LogN缩放时，PagedAttentionOperation 新增一个输入tensor 名为 logN，其具体规格如下：

名字	维度	数据类型	格式	cpu or npu
logN	增量阶段: [batch size]	Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品：float32； Atlas 推理系列产品：float16	ND	NPU

名字

维度

数据类型

格式

cpu or npu

logN

增量阶段: [batch size]

Atlas 800I A2 推理产品/Atlas A2 训练系列产品和Atlas A3 推理系列产品/Atlas A3 训练系列产品：float32；

Atlas 推理系列产品：float16

NPU

其它输入tensor没有变化。

无

logN缩放