Alibi位置编码

背景与挑战

当大模型在训练和预测时的输入长度不一致时,模型的泛化能力会下降。若外推能力不佳,大模型在处理长文本或多轮对话时的效果就会受到限制。正弦位置编码的外推能力比较弱,RoPE(Rotary Positional Embedding,旋转式位置嵌入)的外推能力有一定提高但仍然有限。

解决方案

使用场景

当大模型在训练和预测时的输入长度不一致时,使用此方法可获得收益。

使用方法

目前Ring Attention长序列并行已经支持alibi位置编码,当前只支持mask计算类型为causal的场景以及--alibi-fusion-attn-type设置为2或3的压缩模式。

使用效果

提高模型外推能力。