aclnnAddcmul&aclnnInplaceAddcmul

支持的产品型号

Atlas 训练系列产品。
Atlas A2训练系列产品/Atlas 800I A2推理产品。

接口原型

aclnnAddcmul和aclnnInplaceAddcmul实现相同的功能，使用区别如下，请根据自身实际场景选择合适的算子。
- aclnnAddcmul：需新建一个输出张量对象存储计算结果。
- aclnnInplaceAddcmul：无需新建输出张量对象，直接在输入张量的内存中存储计算结果。
每个算子分为，必须先调用 “aclnnAddcmulGetWorkspaceSize” 或者 “aclnnInplaceAddcmulGetWorkspaceSize” 接口获取入参并根据计算流程计算所需workspace大小，再调用 “aclnnAddcmul” 或者 “aclnnInplaceAddcmul” 接口执行计算。
- aclnnStatus aclnnAddcmulGetWorkspaceSize(const aclTensor *self, const aclTensor *tensor1, const aclTensor *tensor2, const aclScalar *value, aclTensor *out, uint64_t *workspaceSize, aclOpExecutor** executor)
- aclnnStatus aclnnAddcmul(void* workspace, int64 workspaceSize, aclOpExecutor** executor, aclrtStream stream)
- aclnnStatus aclnnInplaceAddcmulGetWorkspaceSize(const aclTensor *selfRef, const aclTensor *tensor1, const aclTensor *tensor2, const aclScalar *value, uint64_t *workspaceSize, aclOpExecutor** executor)
- aclnnStatus aclnnInplaceAddcmul(void* workspace, int64 workspaceSize, aclOpExecutor** executor, aclrtStream stream)

功能描述

算子功能：执行 tensor1 与 tensor2 的逐元素乘法，将结果乘以标量值value并将其添加到输入self。
计算公式：

output​=self+ value \times tensor1 \times tensor2

aclnnAddcmulGetWorkspaceSize

参数说明：
- self（aclTensor*, 计算输入）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要与tensor1、tensor2相乘的结果满足数据类型推导规则（参见），shape需要与tensor1、tensor2满足。支持，支持ND，且需要与tensor1、tensor2一致。
- tensor1（aclTensor*, 计算输入）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要与self、tensor2满足数据类型推导规则（参见），shape需要与self、tensor2满足。支持，支持ND，且需要与self、tensor2一致。
- tensor2（aclTensor*, 计算输入）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要与self、tensor1满足数据类型推导规则（参见），shape需要与self、tensor1满足。支持，支持ND，且需要与self、tensor1一致。
- value（aclScalar*, 计算输入）：Host侧的aclScalar，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，数据类型需要可转换成self与tensor1、tensor2推导后的数据类型。
- out（aclTensor*, 计算输出）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要是self与tensor1、tensor2推导之后可转换的数据类型（），shape需要是self与tensor1、tensor2 broadcast之后的shape，支持ND，且需要与self一致。
- workspaceSize（uint64_t*, 计算输出）：返回用户需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**, 计算输出）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见。

[object Object]

aclnnAddcmul

参数说明：
- workspace（void*, 计算输入）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t, 计算输入）：在Device侧申请的workspace大小，由第一段接口aclnnAddcmulGetWorkspaceSize获取。
- executor（aclOpExecutor*, 计算输入）：op执行器，包含了算子计算流程。
- stream（aclrtStream, 计算输入）：指定执行任务的 AscendCL Stream流。
返回值：

aclnnStatus：返回状态码，具体参见。

aclnnInplaceAddcmulGetWorkspaceSize

参数说明：
- selfRef（aclTensor*, 计算输入/输出）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要与tensor1、tensor2相乘的结果满足数据类型推导规则（参见），shape需要与tensor1、tensor2满足。支持，支持ND，且需要与tensor1、tensor2一致
- tensor1（aclTensor*, 计算输入）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要与selfRef、tensor2满足数据类型推导规则（参见），shape需要与selfRef、tensor2满足。支持，支持ND，且需要与selfRef、tensor2一致
- tensor2（aclTensor*, 计算输入）：Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，且数据类型需要与selfRef、tensor1满足数据类型推导规则（参见），shape需要与selfRef、tensor1满足。支持，支持ND，且需要与selfRef、tensor1一致。
- value（aclScalar*, 计算输入）：Host侧的aclScalar，数据类型支持FLOAT、FLOAT16、DOUBLE、BFLOAT16(仅Atlas A2训练系列产品/Atlas 800I A2推理产品支持)、INT32、INT64、INT8、UINT8，数据类型需要可转换成selfRef与tensor1、tensor2推导后的数据类型。
- workspaceSize（uint64_t*, 计算输出）：返回用户需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**, 计算输出）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见。

[object Object]

aclnnInplaceAddcmul

参数说明：
- workspace（void*, 计算输入）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t, 计算输入）：在Device侧申请的workspace大小，由第一段接口aclnnInplaceAddcmulGetWorkspaceSize获取。
- executor（aclOpExecutor*, 计算输入）：op执行器，包含了算子计算流程。
- stream（aclrtStream, 计算输入）：指定执行任务的 AscendCL Stream流。
返回值：

aclnnStatus：返回状态码，具体参见。

约束与限制

无

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考。

[object Object]