aclnnSwiGluQuantV2

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	√
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：在SwiGlu激活函数后添加quant操作，实现输入x的SwiGluQuant计算，支持int8或int4量化输出。
算子功能差异点说明：相比于aclnnSwiGluQuant接口，aclnnSwiGluQuantV2新增支持groupIndexOptional传入cumsum模式和count模式，通过groupListType控制不同的模式；新增支持非MoE（groupIndexOptional传空）的场景；新增支持int8或int4量化输出yOut，通过dstType控制不同的量化输出数据类型。
算子支持范围：当前SwiGluQuant支持MoE场景（传入groupIndexOptional）和非MoE场景（groupIndexOptional传空），SwiGluQuant的输入x和group_index来自于GroupedMatMul算子和MoeInitRouting的输出，通过group_index入参实现MoE分组动态量化、静态per_tensor量化、静态per_channel量化功能。
MoE场景动态量化计算公式：
$Act = SwiGLU(x) = Swish(A)*B \\ Y_{tmp}^0 = Act[0\colon g[0],\colon] * smooth\_scales[0\colon g[0],\colon], i=0 \\ Y_{tmp}^i = Act[g[i]\colon g[i+1], \colon] * smooth\_scales[i+1, \colon], i \in (0, G) \cap \mathbb{Z}\\ scale=row\_max(abs(Y_{tmp}))/dstTypeScale$ $Y = Cast(Mul(Y_{tmp}, Scale))$
其中，A表示输入x的前半部分，B表示输入x的后半部分，g表示group_index，G为group_index的分组数量。int8量化时， $dstTypeScale = 127$ （127是int8的最大值）；int4量化时， $dstTypeScale = 7$ （7是int4的最大值）。
MoE场景静态量化计算公式：
$Act = SwiGLU(x) = Swish(A)*B \\ Y_{tmp}^0 = Act(0\colon g[0],\colon) * smooth\_scales[0\colon g[0],\colon] + offsets[0\colon g[0],\colon], i=0 \\ Y_{tmp}^i = Act[g[i]\colon g[i+1], \colon] * smooth\_scales[i+1, \colon] + offsets[g[i]\colon g[i+1], \colon], i \in (0, G) \cap \mathbb{Z}\\$ $Y = Cast(Y_{tmp})$
其中，A表示输入x的前半部分，B表示输入x的后半部分，g表示group_index，G为group_index的分组数量。
非MoE场景（groupIndexOptional传空）动态量化计算公式：
$Act = SwiGLU(x) = Swish(A)*B \\ Y_{tmp} = Act* smooth\_scales(0,\colon)\\ scale=dstTypeScale/row\_max(abs(Y_{tmp}))$ $Y = Cast(Mul(Y_{tmp}, Scale))$
其中，A表示输入x的前半部分，B表示输入x的后半部分。int8量化时， $dstTypeScale = 127$ （127是int8的最大值）；int4量化时， $dstTypeScale = 7$ （7是int4的最大值）。
非MoE场景（groupIndexOptional传空）静态量化计算公式：
$Act = SwiGLU(x) = Swish(A)*B \\ Y_{tmp} = Act * smooth\_scales(0,\colon) + offsets(0,\colon) \\$ $Y = Cast(Y_{tmp})$
其中，A表示输入x的前半部分，B表示输入x的后半部分。

函数原型

每个算子分为undefined，必须先调用“aclnnSwiGluQuantV2GetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnSwiGluQuantV2”接口执行计算。

aclnnStatus aclnnSwiGluQuantV2GetWorkspaceSize(const aclTensor *x, const aclTensor *smoothScalesOptional, const aclTensor *offsetsOptional, const aclTensor *groupIndexOptional, bool activateLeft, char *quantModeOptional, int64_t groupListType, int64_t dstType, const aclTensor *yOut, const aclTensor *scaleOut, uint64_t *workspaceSize, aclOpExecutor **executor)
aclnnStatus aclnnSwiGluQuantV2(void *workspace, uint64_t workspaceSize, aclOpExecutor *executor, aclrtStream stream)

aclnnSwiGluQuantV2GetWorkspaceSize

参数说明：
- x（aclTensor*，计算输入）：输入待处理的数据，对应公式x变量，Device侧的aclTensor，数据类型支持FLOAT16、BFLOAT16、FLOAT。支持undefined，undefined支持ND。x的最后一维需要为2的倍数，且x的维数必须大于1维，当前仅支持输入x的最后一维长度不超过8192。当dstType传入值为29(表示yOut输出为INT4量化)时，x的最后一维需要为4的倍数。
- smoothScalesOptional（aclTensor*，计算输入）：量化的smooth_scales，对应公式smooth_scales变量，Device侧的aclTensor，数据类型支持FLOAT。支持undefined，undefined支持ND。shape支持[G, N]，[G, ]，其中G代表groupIndex分组数量，N为计算输入x的最后一维大小的二分之一。
- offsetsOptional（aclTensor*，计算输入）：对应公式offsets，Device侧aclTensor，该参数在动态量化场景下不生效，用户传入空指针即可。静态量化场景下：数据类型支持FLOAT，per_channel模式下shape支持[G, N]，per_tensor模式下shape支持[G, ]，且数据类型和shape需要与smoothScalesOptional保持一致。支持非连续的Tensor，数据格式支持ND。
- groupIndexOptional（aclTensor*，计算输入）：MoE分组需要的group_index，对应公式group_index变量，Device侧的aclTensor，数据类型支持INT32。支持undefined，undefined支持ND，shape支持[G, ]，group_index内元素要求为非递减，且最大值不得超过输入x的除最后一维之外的所有维度大小之积。
- activateLeft（bool，计算输入）：表示左矩阵是否参与运算，用户必须传参，数据类型支持bool。
- quantModeOptional（char*，计算输入）：数据类型支持String，用户必须传参，"static"表示静态量化、"dynamic"表示动态量化、"dynamic_msd"表示动态MSD量化。当前仅支持"dynamic"动态量化，"static"静态量化。静态量化仅支持per_tensor量化和per_channel量化。
- groupListType（int64_t，计算输入）：数据类型支持int64_t，用户必须传参，0表示cumsum模式、1表示count模式。当前仅支持0 cumsum模式，1 count模式。
- dstType（int64_t，计算输入）：数据类型支持int64_t，用户必须传参，2表示yOut为int8量化输出、29表示yOut为int4量化输出。当前仅支持输入2和29，默认值是2。
- yOut（aclTensor*，计算输出）：Device侧的aclTensor，数据类型支持INT8和INT4，undefined，undefined支持ND，计算输出yOut的shape最后一维大小为计算输入x最后一维的二分之一，其余维度与x保持一致。
- scaleOut（aclTensor*，计算输出）：Device侧的aclTensor，数据类型支持FLOAT，undefined，undefined支持ND，计算输出scaleOut的shape与计算输入x相比，无最后一维，其余维度与计算输入x保持一致。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值： aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnSwiGluQuantV2

参数说明：
- workspace（void*，入参）：在Device侧申请的workspace内存地址。
- workspaceSize（uint64_t，入参）：在Device侧申请的workspace大小，由第一段接口aclnnSwiGluQuantV2GetWorkspaceSize获取。
- executor（aclOpExecutor*，入参）：op执行器，包含了算子计算流程。
- stream（aclrtStream，入参）：指定执行任务的Stream。
返回值： aclnnStatus：返回状态码，具体参见undefined。

约束说明

无。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]