使用场景

通常使用在注意力机制attention前和attention与前馈网络ffn之间。

图1 RmsNormOperation算子上下文