（beta）torch_npu.contrib.module.MultiheadAttention

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品[object Object]	√
[object Object]Atlas 推理系列产品[object Object]	√
[object Object]Atlas 训练系列产品[object Object]	√

Multi-head attention。

[object Object]

embed_dim (int)：模型总维度。
num_heads (int)：并行attention head。
kdim(int)：key的特性总数。默认值为None。
vdim(int)：value的特性总数。默认值为None。
dropout (float)：Dropout概率。
bias (bool)：如果指定此参数，则向输入/输出投影层添加偏置。默认值为True。
add_bias_kv (bool)：如果指定此参数，则在dim=0处向键值序列添加偏置。默认值为False。
add_zero_attn (bool)：如果指定此参数，则在dim=1处向键值序列新加一批零。默认值为False。
self_attention(bool)：表示是否为自注意力层，若取值为True，要求embed_dim、kdim、vdim取值相等。默认值为False。
encoder_decoder_attention (bool)：输入为编码器输出和解码器self-attention输出，其中编码器self-attention用作key和value，解码器self-attention用作查询。默认值为False。
q_noise(float)：量化噪声量。
qn_block_size(int)：用于后续iPQ量化的块大小。

Tensor

Multi-head attention的计算结果。

[object Object]