功能介绍
Attention是推荐模型中会使用的典型子结构,该结构由多个算子组成。在实际网络中会出现调度时延和额外内存操作,导致整网耗时较长。Rec SDK提供了AttentionFusion融合算子,针对序列较长、key张量shape尾轴32字节对齐场景进行性能优化。
用法
使用步骤如下:
约束说明