SwigluQuantOperation(代码开放)
产品支持情况
硬件型号 |
是否支持 |
---|---|
√ |
|
√ |
|
x |
|
x |
|
x |
功能说明
swiglu函数激活对输出进行per token量化。
定义
1 2 3 4 5 6 7 | struct SwigluQuantParam{ enum QuantType:int{ QUANT_TYPE_PER_TOKEN =0, }; QuantType quantType = QUANT_TYPE_PER_TOKEN; uint8_t rsv[8] = {0}; }; |
参数列表
成员名称 |
类型 |
默认值 |
取值范围 |
是否必选 |
描述 |
---|---|---|---|---|---|
quantType |
QuantType |
QUANT_TYPE_PER_TOKEN |
[0] |
是 |
PER_TOKEN量化。 |
rsv[8] |
uint8_t |
{0} |
[0] |
否 |
预留参数。 |
输入
参数 |
维度 |
数据类型 |
格式 |
描述 |
---|---|---|---|---|
inTensor |
[nTokens, 2 * hiddenSize] |
float16/bf16 |
ND |
输入tensor。 |
输出
参数 |
维度 |
数据类型 |
格式 |
描述 |
---|---|---|---|---|
outTensor1 |
[nTokens, hiddenSize] |
int8 |
ND |
输出tensor,量化输出。 |
outTensor2 |
[nTokens] |
float |
ND |
输出tensor,量化后的scale。 |
约束说明
25*hiddenSize (32Byte对齐后的数字个数)<192KB。