aclnnGeluQuant

产品支持情况

产品	是否支持
[object Object]Atlas A3 训练系列产品/Atlas A3 推理系列产品[object Object]	×
[object Object]Atlas A2 训练系列产品/Atlas 800I A2 推理产品/A200I A2 Box 异构组件[object Object]	×
[object Object]Atlas 200I/500 A2 推理产品[object Object]	×
[object Object]Atlas 推理系列产品 [object Object]	×
[object Object]Atlas 训练系列产品[object Object]	×

功能说明

算子功能：将GeluV2与DynamicQuant/AscendQuantV2进行融合，对输入的数据self进行gelu激活后，对激活的结果进行量化，输出量化后的结果。
计算公式：

先计算gelu计算得到geluOut

approximate = tanh $geluOut=Gelu(self)=self × Φ(self)=0.5 * self * (1 + Tanh( \sqrt{2 / \pi} * (self + 0.044715 * self^{3})))$
approximate = none $geluOut=Gelu(self)=self × Φ(self)=0.5 * self *[1 + erf(self/\sqrt{2})]$

再对geluOut进行量化操作

quant_mode = static
$y = round\_to\_dst\_type(geluOut * inputScaleOptional + inputOffsetOptional, round\_mode)$
quant_mode = dynamic
$geluOut = geluOut * inputScaleOptional$ $Max = max(abs(geluOut))$ $outScaleOptional = Max/maxValue$ $y = round\_to\_dst\_type(geluOut / outScaleOptional, round\_mode)$
maxValue: 对应数据类型的最大值。

DataType maxValue

INT8 127

FLOAT8_E4M3FN 448

FLOAT8_E5M2 57344

HIFLOAT8 32768

DataType	maxValue
INT8	127
FLOAT8_E4M3FN	448
FLOAT8_E5M2	57344
HIFLOAT8	32768

函数原型

每个算子分为undefined，必须先调用“aclnnGeluQuantGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnGeluQuant”接口执行计算。

aclnnStatus aclnnGeluQuantGetWorkspaceSize(const aclTensor* self, const aclTensor* inputScaleOptional, const aclTensor* inputOffsetOptional, const char* approximate, const char* quantMode, const char* roundMode, int64_t dstType, const aclTensor* y, const aclTensor* outScaleOptional, uint64_t* workspaceSize, aclOpExecutor** executor)
aclnnStatus aclnnGeluQuant(void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)

aclnnGeluQuantGetWorkspaceSize

参数说明：
- self（aclTensor*，计算输入）：Device侧的aclTensor，计算公式中的输入self。数据类型支持FLOAT16、BFLOAT16、FLOAT，quantMode为"dynamic"时shape支持2-8维，quantMode为"static"时shape支持1-8维，支持undefined，不支持空Tensor，undefined支持ND格式。
- inputScaleOptional（aclTensor*，计算输入）：Device侧的aclTensor，计算公式中inputScaleOptional，算子的输入。数据类型支持FLOAT16、BFLOAT16、FLOAT，shape仅支持1维，大小只能是self的尾轴维度大小或1，支持undefined，不支持空Tensor，undefined支持ND格式。当quantMode为static的时候为必选输入，为dynamic的时候为可选输入。
- inputOffsetOptional（aclTensor*，计算输入）：Device侧的aclTensor，计算公式中inputOffsetOptional，算子的可选输入。数据类型支持FLOAT16、BFLOAT16、FLOAT，shape仅支持1维，与inputScaleOptional的dtype和shape保持一致，支持undefined，不支持空Tensor，undefined支持ND格式。当quantMode为dynamic时，inputScaleOptional不输入的情况下，offset不输入。
- approximate（char*，计算输入）：host侧的string，公式中的approximate，gelu激活函数的模式。approximate仅支持{"none", "tanh"}。
- quantMode（char*，计算输入）：host侧的string，公式中的quantmode，量化的模式，quantMode仅支持{"static", "dynamic"}, 分别对应量化模式为静态量化和动态量化。
- roundMode（char*，计算输入）：host侧的string，公式中的round_mode，数据转换的模式，支持{"rint", "round", "hybrid"}模式。dstType为2/35/36，对应的数据类型为INT8/FLOAT8_E4M3FN/FLOAT8_E5M2时，仅支持{"rint"}。dstType为34，对应的数据类型为HIFLOAT8，支持{"round", "hybrid"}。
- dstType（int64_t，计算输入）：host侧的int64_t，公式中的dst_type，指定数据转换后y的类型，输入范围为{2, 34, 35, 36}，分别对应输出y的数据类型为{2: INT8, 34: HIFLOAT8, 35: FLOAT8_E5M2, 36: FLOAT8_E4M3FN}。
- y（aclTensor*，计算输出）：Device侧的aclTensor，公式中的输出y，激活后输出量化后的对应结果。数据类型支持FLOAT8_E4M3FN、FLOAT8_E5M2、HiFLOAT8、INT8需与dstType对应，与self的shape大小保持一致，不支持空Tensor，undefined支持ND格式。
- outScaleOptional（aclTensor*，计算输出）：Device侧的aclTensor，公式中的outScaleOptional，动态量化的量化尺度。数据类型支持FLOAT，shape支持1-7维度，比self维度少1维，维度大小与self除了最后一个维度外的大小一致，不支持空Tensor，undefined支持ND格式。当quantMode为static时，outScaleOptional输出应该为空指针。
- workspaceSize（uint64_t*，出参）：返回需要在Device侧申请的workspace大小。
- executor（aclOpExecutor**，出参）：返回op执行器，包含了算子计算流程。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

[object Object]

aclnnGeluQuant

参数说明：
- workspace(void*, 入参)：在Device侧申请的workspace内存地址。
- workspaceSize(uint64_t, 入参)：在Device侧申请的workspace大小，由第一段接口aclnnGeluQuantGetWorkspaceSize获取。
- executor(aclOpExecutor*, 入参)：op执行器，包含了算子计算流程。
- stream(aclrtStream, 入参)：指定执行任务的Stream。
返回值：

aclnnStatus：返回状态码，具体参见undefined。

约束说明

inputScaleOptional的数据类型与self的类型一致，或者在类型不一致时采用精度更高的类型。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考undefined。

[object Object]