aclnnNormRopeConcatGrad

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	√
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品[object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：(多模态)transfomer注意力机制中，针对query、key和Value实现归一化（Norm）、旋转位置编码（Rope）、特征拼接（Concat）融合算子功能反向推导：
- 归一化（Norm）当前支持层归一化（LayerNorm）和带仿射变换参数层归一化（AFFINE LayerNorm）类型。
- 旋转位置编码（Rope）支持Interleave和Half类型。
计算公式：
- LayerNorm反向推导：
  $\frac{\partial L}{\partial x} = \text{rstd} \cdot \Bigg( \frac{\partial L}{\partial y} - \text{Mean}\left( \frac{\partial L}{\partial y} \right) - \hat{x} \cdot \text{Mean}\left( \frac{\partial L}{\partial y} \odot \hat{x} \right) \Bigg) \quad \quad \quad \quad \quad \quad \quad \text{[Mean over headdim dimension]}$
- LayerNorm（带仿射变换参数）反向推导：
  $\left\{ \begin{aligned} \frac{\partial L}{\partial \beta} &= \sum_{B, S, H} \frac{\partial L}{\partial y}, &\quad \text{[Sum over batch, seq, headnum dimensions]} \\ \frac{\partial L}{\partial \gamma} &= \sum_{B, S, H} \frac{\partial L}{\partial y} \odot \hat{x}, &\quad \text{[Element-wise product accumulation]} \\ \frac{\partial L}{\partial x} &= \text{rstd} \cdot \Bigg( \frac{\partial L}{\partial \hat{x}} - \text{Mean}\left( \frac{\partial L}{\partial \hat{x}} \right) - \hat{x} \cdot \text{Mean}\left( \frac{\partial L}{\partial \hat{x}} \odot \hat{x} \right) \Bigg) &\quad \text{[Mean over headdim dimension]} \\ \end{aligned} \right\}$
- 其中（μ为均值，σ^2为方差）:
  $\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}, \quad \quad \frac{\partial L}{\partial \hat{x}} = \frac{\partial L}{\partial y} \odot \gamma, \quad \quad \text{rstd} = \frac{1}{\sqrt{\sigma^2 + \epsilon}}$
- Rope-Interleave反向推导：
  $\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \text{cos} + Interleave({\frac{\partial L}{\partial y} \cdot \text{sin}}) \odot \text{negMask}$
- Rope-Half反向推导：
  $\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \text{cos} + Half({\frac{\partial L}{\partial y} \cdot \text{sin}}) \odot \text{negMask}$
- 其中则Interleave()表示headdim维度奇数与偶数位置交替重组，half()表示headDim维度后半和前一半元素交替重组，例如x = [0,1,2,3,4,5,6,7], 则Interleave(x) = [1,0,3,2,5,4,7,6]，Half(x)=[4,0,5,1,6,2,7,3]；negMask为headDim长度，偶数位为1，奇数位为-1，即(1, -1, 1, -1, 1, ...)

函数原型

每个算子分为，必须先调用“aclnnNormRopeConcatBackwardGetWorkspaceSize”接口获取入参并根据计算流程计算所需workspace大小，再调用“aclnnNormRopeConcatBackward”接口执行计算。

aclnnStatus aclnnNormRopeConcatBackwardGetWorkspaceSize(const aclTensor *gradQueryOutput, const aclTensor *gradKeyOutput, const aclTensor *gradValueOutput,const aclTensor *query, const aclTensor *key, const aclTensor *encoderQuery, const aclIntArray *encoderKey, const aclIntArray *normQueryWeight, const aclIntArray *normQueryMean, const aclIntArray *normQueryRstd, const aclIntArray *normKeyWeight, const aclIntArray *normKeyMean, const aclIntArray *normKeyRstd, const aclIntArray *normAddedQueryWeight, const aclIntArray *normAddedQueryMean, const aclIntArray *normAddedQueryRstd, const aclIntArray *normAddedKeyWeight, const aclIntArray *normAddedKeyMean, const aclIntArray *normAddedKeyRstd, const aclIntArray *ropeSin, const aclIntArray *ropeCos, int64_t normType, int64_t normAddedType, int64_t ropeType, int64_t ropeOrder, int64_t concatOrder, const aclIntArray *gradQuery, const aclIntArray *gradKey, const aclIntArray *gradValue, const aclIntArray *gradEncoderQuery, const aclIntArray *gradEncoderKey, const aclIntArray *gradEncoderValue, const aclIntArray *gradNormQueryWeight, const aclIntArray *gradNormQueryBias, const aclIntArray *gradNormKeyWeight, const aclIntArray *gradNormKeyBias, const aclIntArray *gradNormAddedQueryWeight, const aclIntArray *gradNormAddedQueryBias, const aclIntArray *gradNormAddedKeyWeight, const aclIntArray *gradNormAddedKeyBias, aclOpExecutor *executor)
aclnnStatus aclnnNormRopeConcatBackward(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnNormRopeConcatBackwardGetWorkspaceSize

参数说明：
- gradQueryOutput（aclTensor*，计算输入）：Device侧的aclTensor，网络层对query和encoderQuery正向输出结果的反向梯度值，对应公式中的y，支持ND，格式为[batch, headNum, seqQuery+seqEncoderQuery, headDim]，encoderQuery参数为nullptr时seqEncoderQuery值为0，headdim长度大小需在[1~1024]间且为偶数，数据类型支持FLOAT16、BFLOAT16、FLOAT32。
- gradKeyOutput（aclTensor*，计算输入）：Device侧的aclTensor，网络层对key和encoderKey正向输出结果的反向梯度值，对应公式中的y，支持ND，格式为[batch, headNum, seqKey+seqEncoderKey, headDim]，encoderKey参数为nullptr时seqEncoderKey值为0，数据类型与参数gradQueryOutput保持一致。
- gradValueOutput（aclTensor*，计算输入）：Device侧的aclTensor，网络层对value和encoderValue正向输出结果的反向梯度值，对应公式中的y，支持ND，格式为[batch, headNum, seqValue+seqEncoderValue, headDim]，encoderValue参数为nullptr时seqEncoderValue值为0，seqValue长度大小与seqKey一致，seqEncoderValue长度大小与seqEncoderKey一致，数据类型与参数gradQueryOutput保持一致。
- query（aclTensor*，计算输入）：Device侧的aclTensor，正向输入的query（多模态中图片Query），对应公式中的x，支持ND，格式为[batch, seqQuery, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- key（aclTensor*，计算输入）：Device侧的aclTensor，正向输入的key（多模态中图片Key），对应公式中的x，支持ND，格式为[batch, seqKey, headNum,headDim]，数据类型与参数gradQueryOutput保持一致。
- encoderQuery（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向输入的encoderQuery（多模态中文本Query），对应公式中的x，当文本Query参与训练时进行传入，支持ND，格式为[batch, seqEncoderQuery, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- encoderKey（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向输入的encoderKey（多模态中文本Key），对应公式中的x，当文本Key参与训练时进行传入，支持ND，格式为[batch, seqEncoderKey, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- normQueryWeight（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向query进行归一化操作的权重值，对应公式中的γ，当图片Query、Key进行带仿射LayerNorm归一化操作时传入，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- normQueryMean（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向query进行归一化操作时输出的均值，对应公式中的μ，当图片Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqQuery, headNum, 1]，数据类型支持FLOAT32。
- normQueryRstd（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向query进行归一化操作时输出的方差相关项，对应公式中的rstd，当图片Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqQuery, headNum, 1]，数据类型支持FLOAT32。
- normKeyWeight（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向key进行归一化操作的权重值，对应公式中的γ，当图片Query、Key进行带仿射LayerNorm归一化操作时传入，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- normKeyMean（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向key进行归一化操作时输出的均值，对应公式中的μ，当图片Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqKey, headNum, 1]，数据类型支持FLOAT32。
- normKeyRstd（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向key进行归一化操作时输出的方差相关项rstd，对应公式中的rstd，当图片Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqKey, headNum, 1]，数据类型支持FLOAT32。
- normAddQueryWeight（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向encoderQuery进行归一化操作的权重值，对应公式中的γ，当文本Query、Key进行带仿射LayerNorm归一化操作时传入，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- normAddQueryMean（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向encoderQuery进行归一化操作时输出的均值，对应公式中的μ，当文本Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqEncoderQuery, headNum, 1]，数据类型支持FLOAT32。
- normAddQueryRstd（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向encoderQuery进行归一化操作时输出的方差相关项，对应公式中的rstd，当文本Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqEncoderQuery, headNum, 1]，数据类型支持FLOAT32。
- normAddKeyWeight（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向encoderKey进行归一化操作的权重值，对应公式中的γ，当文本Query、Key进行带仿射LayerNorm归一化操作时传入，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- normAddKeyMean（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向encoderKey进行归一化操作时输出的均值，对应公式中的μ，当文本Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqEncoderKey, headNum, 1]，数据类型支持FLOAT32。
- normAddKeyRstd（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，正向encoderKey进行归一化操作时输出的方差相关项，对应公式中的rstd，当文本Query、Key进行归一化操作时传入，支持ND，格式为[batch, seqEncoderKey, headNum, 1]，数据类型支持FLOAT32。
- ropeSin（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，公式中正向输入进行旋转位置编码操作的sin值，当图片或文本Query、Key进行旋转位置编码操作时传入，支持ND，格式为[seqRope, headDim]，seqRope长度大小需在[1~min(seqQuery+seqEncoderQuery, seqKey+seqEncoderKey)]之间，数据类型与参数gradQueryOutput保持一致。
- ropeCos（aclTensor*，计算输入）：可选参数，Device侧的aclTensor，公式中正向输入进行旋转位置编码操作的cos值，当图片或文本Query、Key进行旋转位置编码操作时传入，支持ND，格式为[seqRope, headDim]，数据类型与参数gradQueryOutput保持一致。
- normType（int64_t，计算输入）：Host侧的int64_t，指定query、key归一化操作类型，0：不进行归一化操作，1：层归一化操作，2：带仿射变换参数层归一化操作，用户不特意指定时建议传入为0。
- normAddedType（int64_t，计算输入）：Host侧的int64_t，指定encoderQuery、encoderKey归一化操作类型，0：不进行归一化操作，1：层归一化操作，2：带仿射变换参数层归一化操作，用户不特意指定时建议传入为0。
- ropeType（int64_t，计算输入）：Host侧的int64_t，指定query与encoderQuery、key与encoderKey进行Concat后的旋转位置编码操作类型，0：不进行旋转位置编码操作，1：Interleave类型旋转位置编码，2：Half类型旋转位置编码，用户不特意指定时建议传入为0。
- concatOrder（int64_t，计算输入）：Host侧的int64_t，指定query与encoderQuery、key与encoderKey、value与encoderValue的Concat操作叠加顺序，以query为例，0：[query, encoderQuery]，1：[encoderQuery, query]，用户不特意指定时建议传入为0。
- gradQuery（aclTensor*，计算输出）：Device侧的aclTensor，公式中网络层对正向输入query的反向梯度值，支持ND，格式为[batch, seqQuery, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- gradKey（aclTensor*，计算输出）：Device侧的aclTensor，公式中网络层对正向输入key的反向梯度值，支持ND，格式为[batch, seqKey, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- gradValue（aclTensor*，计算输出）：Device侧的aclTensor，公式中网络层对正向输入value的反向梯度值，支持ND，格式为[batch, seqValue, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- gradEncoderQuery（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderQuery的反向梯度值，当文本Query参与训练时输出，支持ND，格式为[batch, seqEncoderQuery, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- gradEncoderKey（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderKey的反向梯度值，当文本Key参与训练时输出，支持ND，格式为[batch, seqEncoderKey, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- gradEncoderValue（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderValue的反向梯度值，当文本Value参与训练时输出，支持ND，格式为[batch, seqEncoderValue, headNum, headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormQueryWeight（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入query进行归一化操作的γ权重反向梯度值，当图片Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormQueryBias（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入query进行归一化操作的β偏移反向梯度值，当图片Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormKeyWeight（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入key进行归一化操作的γ权重反向梯度值，当图片Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormKeyBias（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入key进行归一化操作的β偏移反向梯度值，当图片Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormAddedQueryWeight（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderQuery进行归一化操作的γ权重反向梯度值，当文本Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormAddedQueryBias（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderQuery进行归一化操作的β偏移反向梯度值，当文本Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormAddedKeyWeight（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderKey进行归一化操作的γ权重反向梯度值，当文本Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- gradNormAddedKeyBias（aclTensor*，计算输出）：可选参数，Device侧的aclTensor，公式中网络层对正向输入encoderKey进行归一化操作的β偏移反向梯度值，当文本Query、Key进行带仿射LayerNorm归一化操作时输出，支持ND，格式为[headDim]，数据类型与参数gradQueryOutput保持一致。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

返回aclnnStatus状态码，具体参见。

[object Object]

aclnnNormRopeConcatBackward

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnNormRopeConcatBackwardGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的AscendCL stream流。
返回值：

返回aclnnStatus状态码，具体参见。

约束说明

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]