RopeOperation

功能

旋转位置编码(Rotary Position Embedding,RoPE),以旋转矩阵的方式在q、k中注入位置信息,使得attention计算时能感受到token的位置关系,在各大模型中,RoPE被广泛应用。RoPE以绝对位置编码的方式实现了相对位置编码,能有效保持位置信息相对关系,并且可以通过编码外推的方式支持超过训练长度的位置编码。

算子上下文

图1 RopeOperation算子上下文

计算公式

对于二维情况

假设空间是偶数维的,把原始空间切分一个个正交的二维子空间,在上面做独立的不同角度的旋转,可以扩展到高维空间。

定义

struct RopeParam {
    int32_t rotaryCoeff = 4;
    int32_t cosFormat = 0;
};

参数列表

成员名称

类型

默认值

描述

rotaryCoeff

int32_t

4

rope,旋转系数,对半旋转是2,支持配置2、4、head_size / 2、head_size。

cosFormat

int32_t

0

训练用参数,支持配置0或1。

rotaryCoeff参数选择与原始计算公式的对应关系如下:

其中m为token的位置,d为query或key的维度。

输入

参数

维度

数据类型

格式

描述

query

[ntokens, hiddenSizeQ]

float16/bf16

ND

当前step多个token的query。

key

[ntokens, hiddenSizeK]

float16/bf16

ND

当前step多个token的key。

cos

[ntokens, head_size] / [ntokens, head_size / 2]

float16/float/bf16

ND

  • 当cos的第二个维度与参数rotaryCoeff不相等时,其值为head_size。
  • ROPE高精度模式,需要输入cos的数据类型为float时生效。

sin

[ntokens, head_size] / [ntokens, head_size/ 2]

float16/float/bf16

ND

  • 当sin的第二个维度与参数rotaryCoeff不相等时,其值为head_size。
  • ROPE高精度模式,需要输入sin的数据类型为float时生效。

seqlen

[batch]

uint32/int32

ND

-

输出

参数

维度

数据类型

格式

描述

ropeQ

[ntokens, hiddenSizeQ]

float16/bf16

ND

旋转后的query。

ropeK

[ntokens, hiddenSizeK]

float16/bf16

ND

旋转后的key。

约束