昇腾社区首页
中文
注册

SwigluQuantOperation(代码开放)

产品支持情况

硬件型号

是否支持

Atlas A3 推理系列产品/Atlas A3 训练系列产品

Atlas A2 训练系列产品/Atlas 800I A2 推理产品

Atlas 训练系列产品

x

Atlas 推理系列产品

x

Atlas 200I/500 A2 推理产品

x

功能说明

swiglu函数激活对输出进行per token量化。

定义

1
2
3
4
5
6
7
struct SwigluQuantParam{
    enum QuantType:int{        
        QUANT_TYPE_PER_TOKEN =0,
    };    
    QuantType quantType = QUANT_TYPE_PER_TOKEN;
    uint8_t rsv[8] = {0};
};

参数列表

成员名称

类型

默认值

取值范围

是否必选

描述

quantType

QuantType

QUANT_TYPE_PER_TOKEN

[0]

PER_TOKEN量化。

rsv[8]

uint8_t

{0}

[0]

预留参数。

输入

参数

维度

数据类型

格式

描述

inTensor

[nTokens, 2 * hiddenSize]

float16/bf16

ND

输入tensor。

输出

参数

维度

数据类型

格式

描述

outTensor1

[nTokens, hiddenSize]

int8

ND

输出tensor,量化输出。

outTensor2

[nTokens]

float

ND

输出tensor,量化后的scale。

约束说明

25*hiddenSize (32Byte对齐后的数字个数)<192KB。