aclnnDequantSwigluQuantV2

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：在Swish门控线性单元激活函数前后添加dequant和quant操作，实现x的DequantSwigluQuant计算。本接口相较于undefined，新增了三个输入参数：dstType、roundModeOptional、activateDim，请根据实际情况选择合适的接口。
计算公式： $dequantOut_i = Dequant(x_i)$ $swigluOut_i = Swiglu(dequantOut_i)=Swish(A_i)*B_i$ $out_i = Quant(swigluOut_i)$ 其中，A[object Object]i[object Object]表示dequantOut[object Object]i[object Object]的前半部分，B[object Object]i[object Object]表示dequantOut[object Object]i[object Object]的后半部分。

函数原型

每个算子分为undefined，必须先调用“aclnnDequantSwigluQuantV2GetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnDequantSwigluQuantV2”接口执行计算。

aclnnStatus aclnnDequantSwigluQuantV2GetWorkspaceSize(const aclTensor *x, const aclTensor *weightScaleOptional, const aclTensor *activationScaleOptional, const aclTensor *biasOptional, const aclTensor *quantScaleOptional, const aclTensor *quantOffsetOptional, const aclTensor *groupIndexOptional, bool activateLeft, char *quantModeOptional, int64_t dstType, char *roundModeOptional, int64_t activateDim, const aclTensor *yOut, const aclTensor *scaleOut, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnDequantSwigluQuantV2(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnDequantSwigluQuantV2GetWorkspaceSize

参数说明：
- x（aclTensor*，计算输入）：输入待处理的数据，Device侧的aclTensor。支持undefined，undefined支持ND。shape为[X1,X2,...Xn,2H]，shape不超过8维，不小于2维。数据类型支持FLOAT16、BFLOAT16、INT32，输入x对应activateDim的维度需要是2的倍数。
- weightScaleOptional（aclTensor*，计算输入）：weight的反量化scale，Device侧的aclTensor，数据类型支持FLOAT。支持undefined，undefined支持ND。shape支持1维或2维，shape表示为[2H]或[groupNum, 2H]，且取值2H和x最后一维保持一致。可选参数，支持传空指针。当groupIndexOptional为空指针时，shape为[2H]；当groupIndexOptional不为空指针时，shape为[groupNum, 2H]。
- activationScaleOptional（aclTensor*，计算输入）：激活函数的反量化scale，Device侧的aclTensor，数据类型支持FLOAT。支持undefined，undefined支持ND。shape为[X1,X2,...Xn]，shape不超过7维不小于1维，维度比x的维度少一维，且shape与对应维度的x的shape一致。可选参数，支持传空指针。
- biasOptional（aclTensor*，计算输入）：Matmul的bias，Device侧的aclTensor，数据类型支持FLOAT、FLOAT16、BFLOAT16、INT32。支持undefined，undefined支持ND。shape支持1维，shape表示为[2H]，且取值2H和x最后一维保持一致。可选参数，支持传空指针。
- quantScaleOptional（aclTensor*，计算输入）：量化的scale，Device侧的aclTensor。支持undefined，undefined支持ND。当quantModeOptional为static时，shape为1维，值为1，shape表示为shape[1]；当quantModeOptional为dynamic时，shape为1维或2维，shape表示为[H], [2H]或[groupNum, H]。当groupIndexOptional为空指针且activateDim为尾轴时，shape为[H]；当groupIndexOptional为空指针时且activateDim不为尾轴时，shape为[2H]；当groupIndexOptional不为空指针且activateDim为尾轴时，shape为[groupNum, H]。
- quantOffsetOptional（aclTensor*，计算输入）：量化的offset，Device侧的aclTensor。支持undefined，undefined支持ND，暂时不支持此参数。
- groupIndexOptional（aclTensor*，计算输入）：MoE分组需要的group_index，Device侧的aclTensor。支持undefined，undefined支持ND。数据类型支持INT64，shape支持1维Tensor，shape为[groupNum]，groupNum大于等于1。可选参数，支持传空指针。
- activateLeft（bool，入参）：表示是否对输入的左半部分做swiglu激活，数据类型支持bool。当值为false时，对输入的右半部分做激活。
- quantModeOptional（char*，入参）：仅支持“dynamic”，表示使用动态量化，数据类型支持string。支持传入空指针，传入空指针时，则默认使用“static”。
- dstType（int64_t，入参）：表示指定输出y的数据类型，数据类型支持INT64。dstType的取值范围是:[2, 35, 36, 40, 41]，分别对应INT8、FLOAT8_E5M2、FLOAT8_E4M3FN、FLOAT4_E2M1、FLOAT4_E1M2。
- roundModeOptional（char*，入参）：表示对输出y结果的舍入模式，数据类型支持String。取值范围是：["rint", "round", "floor", "ceil", "trunc"]。当输出y的数据类型为INT8、FLOAT8_E5M2、FLOAT8_E4M3FN时，仅支持"rint"模式。支持传入空指针，传入空指针时，则默认使用“rint”。
- activateDim（int64_t，入参）：表示进行swish计算时，选择的指定切分轴，数据类型支持INT64。activateDim的取值范围是：[-xDim, xDim - 1]（其中xDim指输入x的维度）。当activateDim对应的不是x的尾轴时，不允许输入groupIndexOptional。
- yOut（aclTensor*，计算输出）：Device侧的aclTensor，undefined，undefined支持ND。shape不超过8维，不小于2维。当activateDim对应的x的尾轴时，shape为[X1,X2,...Xn,H]；当activateDim对应的不是x的尾轴时，shape为[X1,X2,...,XactivateDim / 2,...,2H]。数据类型支持INT8、FLOAT8_E5M2、FLOAT8_E4M3FN、FLOAT4_E2M1、FLOAT4_E1M2。当yOut的数据类型为FLOAT4_E2M1、FLOAT4_E1M2时，yOut的最后一维需要是2的倍数。yOut的尾轴需要小于5120。
- scaleOut（aclTensor*，计算输出）：Device侧的aclTensor，数据类型支持FLOAT，undefined，undefined支持ND。shape不超过7维，不小于1维，当activateDim对应的x的尾轴时，shape为[X1,X2,...,Xn]；当activateDim对应的不是x的尾轴时，shape为[X1,X2,...,XactivateDim / 2,...,Xn]。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值： aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnDequantSwigluQuantV2

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnDequantSwigluQuantV2GetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值： aclnnStatus：返回状态码，具体参见undefined。

约束说明

输入x对应activateDim的维度需要是2的倍数，且x的维数必须大于1维。
当输入x的数据类型为INT32时，weightScaleOptional不能为空；当输入x的数据类型不为INT32时，weightScaleOptional不允许输入，传入空指针。
当输入x的数据类型不为INT32时，activationScaleOptional不允许输入，传入空指针。
当输入x的数据类型不为INT32时，biasOptional不允许输入，传入空指针。
当输出yOut的数据类型为FLOAT4_E2M1、FLOAT4_E1M2时，yOut的最后一维需要是2的倍数。
输出yOut的尾轴不超过5120.

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]