实现Transformer模块中的MultiHeadAttention计算逻辑。
[object Object]
- query(
[object Object]):仅支持[object Object]。 - key(
[object Object]):仅支持[object Object]。 - value(
[object Object]):仅支持[object Object]。 - query_weight(
[object Object]):仅支持[object Object]。 - key_weight(
[object Object]):仅支持[object Object]。 - value_weight(
[object Object]):仅支持[object Object]。 - attn_mask(
[object Object]):仅支持[object Object]。 - out_proj_weight(
[object Object]):仅支持[object Object]。 - query_bias(
[object Object]):仅支持[object Object]。 - key_bias(
[object Object]):仅支持[object Object]。 - value_bias(
[object Object]):仅支持[object Object]。 - out_proj_bias(
[object Object]):仅支持[object Object]。 - dropout_mask_input(
[object Object]):仅支持[object Object]。 - attn_head_num(
[object Object]): Attention Head numbers。 - attn_dim_per_head(
[object Object]):Attention dim of a Head。 - src_len(
[object Object]):source length。 - tgt_len(
[object Object]):target length。 - keep_prob(
[object Object]):dropout keep probability。 - softmax_use_float(
[object Object]):SoftMax Use Float32 to keep precision。
- y(
[object Object]):仅支持[object Object]。 - dropout_mask(
[object Object]):仅支持[object Object]。 - query_res(
[object Object]):仅支持[object Object]。 - key_res(
[object Object]):仅支持[object Object]。 - value_res(
[object Object]):仅支持[object Object]。 - attn_scores(
[object Object]):仅支持[object Object]。 - attn_res(
[object Object]):仅支持[object Object]。 - context(
[object Object]):仅支持[object Object]。
[object Object]:需16整数倍对齐。
[object Object]:需16整数倍对齐。
[object Object]:需16整数倍对齐。
[object Object]:需16整数倍对齐。
[object Object]