aclnnNsaCompressGrad

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品[object Object]	√
[object Object]Atlas 800I A2 推理产品[object Object]	×
A200I A2 Box 异构组件	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品[object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：aclnnNsaCompress算子的反向计算。
计算公式：选择注意力的正向计算公式如下：
$\text{dw} = \text{dk\_cmp} \cdot K^\top$ $\text{dk} = W^\top \cdot \text{dk\_cmp}$

函数原型

每个算子分为undefined，必须先调用“aclnnNsaCompressGradGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnNsaCompressGrad”接口执行计算。

aclnnStatus aclnnNsaCompressGradGetWorkspaceSize(const aclTensor *outputGrad, const aclTensor *input, const aclTensor *weight, const aclIntArray *actSeqLenOptionalOptional, int64_t compressBlockSize, int64_t compressStride, int64_t actSeqLenType, char *layoutOptionalOptional, const aclTensor *inputGradOut, const aclTensor *weightGradOut, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnNsaCompressGrad(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnNsaCompressGradGetWorkspaceSize

参数说明：
- outputGrad（aclTensor *，计算输入）：Device侧的aclTensor, 正向算子输出的反向梯度。shape支持[T, N, D]，数据类型支持BFLOAT16、FLOAT16，undefined支持ND，支持undefined，不支持空Tensor。
- input（aclTensor *，计算输入）：Device侧的aclTensor, 表示待压缩张量。shape支持[T, N, D]，数据类型支持BFLOAT16、FLOAT16，undefined支持ND，支持undefined，不支持空Tensor。
- weight（aclTensor *，计算输入）：Device侧的aclTensor，压缩的权重。shape为[compressBlockSize, N]，weight与input的shape满足broadcast关系，数据类型与inpu保持一致，undefined支持ND。支持undefined，不支持空Tensor。
- actSeqLenOptional（aclIntArray *，计算输入）：可选参数，Host侧的aclIntArray，数据类型支持INT64，undefined支持ND，描述了每个Batch对应的S大小，各batch的sequence长度不相等时需要输入，其余场景下输入nullptr。
- compressBlockSize（int64_t，计算输入）：Host侧的int64_t，压缩滑窗大小。
- compressStride（int64_t，计算输入）：Host侧的int64_t，两次压缩滑窗间隔大小。
- actSeqLenType（int64_t，计算输入）：Host侧的int64_t，可取值0或1，0代表actSeqLenOptional中数值为前继batch的系列大小的cumsum结果（累积和），1代表actSeqLenOptional中数值为每个batch中序列大小，当前仅支持0。
- layoutOptional （char *, 计算输入）：Host侧的string，代表输入input的数据排布格式，支持TND。说明： input数据排布格式支持从多种维度解读，其中T是B和S合轴紧密排列的数据（每个batch的actSeqLen）、B（Batch）表示输入样本批量大小、S（Seq-Length）表示输入样本序列长度、H（Head-Size）表示隐藏层的大小、N（Head-Num）表示多头数、D（Head-Dim）表示隐藏层最小的单元尺寸，且满足D=H/N。
- inputGrad（aclTensor *，计算输出）：Device侧的aclTensor，input的梯度。shape与input保持一致，数据类型与input保持一致，undefined支持ND。支持undefined，不支持空Tensor。
- weightGrad（aclTensor *，计算输出）：Device侧的aclTensor，weight的梯度。shape与weight保持一致，数据类型与weight保持一致，undefined支持ND。支持undefined，不支持空Tensor。
- workspaceSize（uint64_t *，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor **，出参）：返回op执行器，包含了算子计算流程。
返回值：

返回aclnnStatus状态码，具体参见undefined。

[object Object]

aclnnNsaCompressGrad

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnNsaCompressGradGetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值：

返回aclnnStatus状态码，具体参见undefined。

约束说明

compressBlockSize和compressStride要是16的整数倍，且compressBlockSize > compressStride

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]