aclnnEmbeddingDenseBackward

支持的产品型号

每个算子分为，必须先调用“aclnnEmbeddingDenseBackwardGetWorkspaceSiz”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnEmbeddingDenseBackward”接口执行计算。

aclnnStatus aclnnEmbeddingDenseBackwardGetWorkspaceSize(const aclTensor *grad, const aclTensor *indices, uint64_t numWeights, uint64_t paddingIdx, bool scaleGradByFreq, const aclTensor *out, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnEmbeddingDenseBackward(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, const aclrtStream stream)

算子功能：实现aclnnEmbedding的反向计算。

参数说明：
- grad(aclTensor*, 计算输入)：Device侧的aclTensor，数据类型支持BFLOAT16（仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持）、FLOAT16、FLOAT类型（针对Atlas 训练系列产品，需要将FLOAT16转为FLOAT类型），和正向输出shape一致，比indices的维度多一，支持，支持ND。
- indices(aclTensor*, 计算输入)：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、INT32、INT64、INT16、INT8、UINT8、BOOL，实际计算时会转为INT32，支持，支持ND。
- numWeights(uint64_t, 计算输入)：向量空间的大小。数据类型支持UINT64。
- paddingIdx(uint64_t, 计算输入)：填充ID，默认为None，如果指定的话，将指定位置处的向量元素全部置为0，且paddingIdx对应的参数不会对梯度产生影响。数据类型支持UINT64。
- scaleGradByFreq(bool, 计算输入)：根据单词出现的频率，对梯度进行放缩，默认为False。数据类型支持BOOL。
- out(aclTensor*, 计算输出)：Device侧的aclTensor，数据类型支持BFLOAT16（仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持）、FLOAT16，FLOAT类型，仅支持2D。
- workspaceSize(uint64_t *, 计算输出): 返回用户需要在Device侧申请的workspace大小。
- executor(aclOpExecutor **, 计算输出): 返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见。

[object Object]

参数说明：
- workspace(void *, 计算输入): 在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 计算输入): 在Device侧申请的workspace大小，由第一段接口aclnnEmbeddingDenseBackwardGetWorkspaceSize获取。
- executor(aclOpExecutor *, 计算输入): op执行器，包含了算子计算流程。
- stream(const aclrtStream, 计算输入): 指定执行任务的 AscendCL Stream流。
返回值：

aclnnStatus：返回状态码，具体参见。

对于输入参数scaleGradByFreq为true的场景，设定输入参数grad张量的最后一维大小为embeddingDim，以grad输入shape为(a, b, ... , n)为例，则embeddingDim = n。其大小超出指定范围时会被拦截报错。其合理范围如下：
- 输入参数indices为int32时，需满足 $embeddingDim < \frac{180192 - countsSize * 4}{36}$
- 输入参数indices为int64时，需满足 $embeddingDim < \frac{180192 - countsSize * 8}{20}$
- 其中，countsSize的公式如下，numWeights为输入参数，coreNum代表昇腾AI处理器核数： $countsSize = numWeights / coreNum + numWeights \% coreNum$

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]