- 算子功能:完成swin-transformer场景的Attention计算,相较于SwinAttentionScore算子,支持int8量化功能
- 计算公式:
每个算子分为,必须先调用“aclnnSwinAttentionScoreQuantGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器,再调用“aclnnSwinAttentionScoreQuant”接口执行计算。
[object Object]
[object Object]
- QKV输入维度是[N,C,S,H]的情况下,S<=1024,H=32/64,NC维度支持任意值
- 不支持维度是[N,C,S,H]的QKV转置后输入
- 只支持非对称量化
- 不支持加bias2的功能
- 只支持对QK^T + bias1 + bias2的最后一维进行softmax操作
[object Object]