GenAttentionMaskOperation

将attentionMask根据每个batch的实际seqlen进行转化，得到结果为一维tensor。当前只支持Atlas 800I A2 推理产品。

$\text{[math]}$

struct GenAttentionMaskParam {
    int32_t headNum = 1;
    atb::SVector<int32_t> seqLen;
};

成员名称	描述
headNum	多头注意力机制的head数。
seqLen	存储unpad场景下每个batch实际seqlen的值。元素个数为batchSize，最大为32。

参数	维度	数据类型	格式	描述
x	[batchSize, 1, maxSeqLen, maxseqlen]	float16	ND	用于attentionmask计算的随机矩阵。

参数	维度	数据类型	格式	描述
output	[nSquareTokens]	float16	ND	attentionmask计算的结果矩阵。

父主题： atb/train_op_params.h