bert自注意力的融合实现。
[object Object]
- hidden_states (
[object Object]):最后一层的hidden_states。 - attention_mask (
[object Object]):attention mask。 - query_kernel (
[object Object]): query的权重。 - key_kernel (
[object Object]):key的权重。 - value_kernel (
[object Object]):value的权重。 - query_bias (
[object Object]):query的偏差值。 - key_bias (
[object Object]):key的偏差值。 - value_bias (
[object Object]):value的偏差值。 - scale (
[object Object]):计算score的缩放系数。 - keep_prob:计算中保留数据的概率,值等于1 - drop rate。
[object Object]
self attention的结果。