昇腾社区首页
中文
注册

GenAttentionMaskOperation

功能

将attentionMask根据每个batch的实际seqlen进行转化,得到结果为一维tensor。当前只支持Atlas 800I A2 推理产品

定义

struct GenAttentionMaskParam {
    int32_t headNum = 1;
    atb::SVector<int32_t> seqLen;
};

成员

成员名称

描述

headNum

多头注意力机制的head数。

seqLen

存储unpad场景下每个batch实际seqlen的值。元素个数为batchSize,最大为32。

输入

参数

维度

数据类型

格式

描述

x

[batchSize, 1, maxSeqLen, maxseqlen]

float16

ND

用于attentionmask计算的随机矩阵。

输出

参数

维度

数据类型

格式

描述

output

[nSquareTokens]

float16

ND

attentionmask计算的结果矩阵。