Alibi位置编码

背景与挑战

当大模型在训练和预测时的输入长度不一致时，模型的泛化能力会下降。若外推能力不佳，大模型在处理长文本或多轮对话时的效果就会受到限制。正弦位置编码的外推能力比较弱，RoPE（Rotary Positional Embedding，旋转式位置嵌入）的外推能力有一定提高但仍然有限。

解决方案

支持Alibi位置编码，提高模型外推能力。
Alibi算法给attention score添加了一个预设的线性偏置矩阵，如图1所示，使模型能够理解输入之间的相对位置关系。由于位置信息直接作用于attention score上，位置差异性被突出，使模型具有较强的外推能力。
图1 线性偏置矩阵

使用场景

当大模型在训练和预测时的输入长度不一致时，使用此方法可获得收益。

使用方法

对于不使用融合算子Fusion Attention的情况，设置以下参数即可调用该算法。
```
--position-embedding-type alibi
```
对于使用融合算子Fusion Attention的情况，设置以下参数：
```
--alibi-fusion-attn-type 2     # 支持0，2，3
```
0表示生成alibi后传入，2和3表示核内生成， 3做pse的时候会做sqrt。

如果要设置alibi为对角线对称取反，则需设置alibi_diagonal_opposite，反之（亦是默认情况，且与2和3时核内生成一致）无需进行设置。

目前Ring Attention长序列并行已经支持alibi位置编码，当前只支持mask计算类型为causal的场景以及--alibi-fusion-attn-type设置为2或3的压缩模式。

使用效果

提高模型外推能力。

父主题： 关键场景