Quantize
产品支持情况
产品 |
是否支持 |
|---|---|
Atlas 350 加速卡 |
√ |
x |
|
x |
|
x |
|
x |
|
x |
|
x |
功能说明
按元素做量化计算,将高精度数据转换为低精度数据。本接口的量化策略包括PER_TENSOR,PER_CHANNEL,PER_TOKEN和PER_GROUP四种,每种量化策略均支持配置舍入模式。本接口最多支持输入为二维数据,不支持更高维度的输入。
Quantize与AscendQuant的功能类似,Quantize在PER_TENSOR、PER_CHANNEL量化场景,扩展了配置舍入模式的功能,因此推荐使用本接口。
- PER_TENSOR量化:整个srcTensor对应一个量化参数,scale和offset的shape为[1]。
- PER_CHANNEL量化:srcTensor的shape为[m, n],每个channel维度对应一个量化参数,scale和offset的shape为[1, n]。
- PER_TOKEN量化:srcTensor的每组token(token为n方向,共有m组token)中的元素共享一个量化参数,srcTensor的shape为[m, n]时,scale和offset的shape为[m, 1]。
- PER_GROUP量化:定义group的计算方向为k方向,srcTensor在k方向上每groupSize个元素共享一组scale和offset。srcTensor的shape为[m, n]时,如果kDim=0,表示k是m方向,scale和offset的shape为[(m + groupSize - 1) / groupSize, n];如果kDim=1,表示k是n方向,scale和offset的shape为[m,(n + groupSize - 1) / groupSize]。
函数原型
- 通过sharedTmpBuffer入参传入临时空间
1 2
template <const QuantizeConfig& config, typename DstT, typename SrcT, typename ScaleT, typename OffsetT> __aicore__ inline void Quantize(const LocalTensor<DstT>& dstTensor, const LocalTensor<SrcT>& srcTensor, const LocalTensor<uint8_t>& sharedTmpBuffer, const ScaleT& scale, const OffsetT& offset, const QuantizeParams& params)
- 接口框架申请临时空间
1 2
template <const QuantizeConfig& config, typename DstT, typename SrcT, typename ScaleT, typename OffsetT> __aicore__ inline void Quantize(const LocalTensor<DstT>& dstTensor, const LocalTensor<SrcT>& srcTensor,const ScaleT& scale, const OffsetT& offset, const QuantizeParams& params)
由于该接口的内部实现中涉及复杂的数学计算,需要额外的临时空间来存储计算过程中的中间变量。临时空间支持接口框架申请和开发者通过sharedTmpBuffer入参传入两种方式。
- 接口框架申请临时空间,开发者无需申请,但是需要预留临时空间的大小。
- 通过sharedTmpBuffer入参传入,使用该tensor作为临时空间进行处理,接口框架不再申请。该方式开发者可以自行管理sharedTmpBuffer内存空间,并在接口调用完成后,复用该部分内存,内存不会反复申请释放,灵活性较高,内存利用率也较高。
接口框架申请的方式,开发者需要预留临时空间;通过sharedTmpBuffer传入的情况,开发者需要为sharedTmpBuffer申请空间。临时空间大小BufferSize的获取方式如下:通过GetQuantizeMaxMinTmpSize中提供的接口获取需要预留空间的范围大小。
参数说明
参数名 |
描述 |
||||
|---|---|---|---|---|---|
config |
用于配置量化计算相关信息,QuantizeConfig类型,具体定义如下。
|
||||
DstT |
目的操作数的数据类型。接口内根据入参dstTensor自动推导数据类型,开发者无需配置该参数,保证dstTensor满足表3 输入输出支持的数据类型组合即可。 |
||||
SrcT |
源操作数的数据类型。接口内根据入参srcTensor自动推导数据类型,开发者无需配置该参数,保证srcTensor满足表3 输入输出支持的数据类型组合即可。 |
||||
ScaleT |
缩放因子scale的数据类型。接口内根据入参scale自动推导数据类型,开发者无需配置该参数。ScaleT可以为标量数据类型或LocalTensor类型。 注意:
|
||||
OffsetT |
offset的数据类型。接口内根据入参offset自动推导数据类型,开发者无需配置该参数。OffsetT可以为标量数据类型或LocalTensor类型。 注意:
|
参数名 |
输入/输出 |
描述 |
||
|---|---|---|---|---|
dstTensor |
输出 |
目的操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 |
||
srcTensor |
输入 |
源操作数。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 |
||
scale |
输入 |
输入数据量化时的缩放因子。 |
||
offset |
输入 |
输入数据量化时的偏移量。 Atlas 350 加速卡,对于PER_GROUP量化的float4场景,offset不生效。 |
||
sharedTmpBuffer |
输入 |
临时缓存。 类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 临时空间大小BufferSize的获取方式请参考GetQuantizeMaxMinTmpSize。 |
||
params |
输入 |
量化接口的参数,QuantizeParams类型,具体定义如下。
|
SrcT |
ScaleT/OffsetT |
DstT |
roundMode |
|---|---|---|---|
half |
half |
fp8_e5m2_t/fp8_e4m3fn_t |
|
bfloat16_t |
bfloat16_t |
||
float |
float |
||
half |
float |
||
bfloat16_t |
float |
||
half |
half |
hifloat8_t |
|
bfloat16_t |
bfloat16_t |
||
float |
float |
||
half |
float |
||
bfloat16_t |
float |
||
half |
half |
int8_t |
|
bfloat16_t |
bfloat16_t |
||
float |
float |
||
half |
float |
||
bfloat16_t |
float |
||
half |
half |
fp4x2_e1m2_t/fp4x2_e2m1_t (当前均只支持PER_GROUP场景) |
|
bfloat16_t |
bfloat16_t |
||
float |
float |
||
half |
float |
||
bfloat16_t |
float |
返回值说明
无
约束说明
- 不支持源操作数与目的操作数地址重叠。
- 操作数地址对齐要求请参见通用地址对齐约束。
- 输入输出操作数参与计算的数据长度要求32字节对齐。
- 连续计算方向(即n方向)的数据量要求32字节对齐。
- PER_GROUP量化的float4场景不支持offset,该场景下模板参数config中的hasOffset参数必须配置为false。
调用示例
- PER_CHANNEL、PER_TOKEN、PER_GROUP模式
1 2 3 4 5 6 7 8 9 10 11 12
constexpr static AntiQuantizePolicy tokenPolicy = AntiQuantizePolicy::PER_TOKEN; constexpr static AntiQuantizePolicy channelPolicy = AntiQuantizePolicy::PER_CHANNEL; constexpr static AntiQuantizePolicy groupPolicy = AntiQuantizePolicy::PER_GROUP; // 此处以PER_TOKEN模式为例,使能offset,舍入模式为CAST_ROUND;kDim仅PER_GROUP场景有效,表示group计算方向为n方向 constexpr static QuantizeConfig config = {tokenPolicy, true, RoundMode::CAST_ROUND, 1}; QuantizeParams params; // m,n为外部传入参数,表示srcLocal实际参与的m、n方向的元素个数 params.m = m; params.n = n; params.groupSize = n; // 仅PER_GROUP场景有效,此处表示n方向所有元素共享一组scale和offset // dstLocal为int8_t类型的LocalTensor,srcLocal、scale、offset为half类型的LocalTensor Quantize<config>(dstLocal, srcLocal, scale, offset, params);
- PER_TENSOR模式
1 2 3 4 5 6 7 8 9 10
constexpr static AntiQuantizePolicy tensorPolicy = AntiQuantizePolicy::PER_TENSOR; // 使能offset,舍入模式为CAST_ROUND constexpr static QuantizeConfig config = {tensorPolicy, true, RoundMode::CAST_ROUND, -1}; QuantizeParams params; // m,n为外部传入参数,表示srcLocal实际参与的m、n方向的元素个数 params.m = m; params.n = n; params.groupSize = 0; // 仅PER_GROUP场景有效 // dstLocal为int8_t类型的LocalTensor,srcLocal为half类型的LocalTensor,scale、offset为half类型的标量 Quantize<config>(dstLocal, srcLocal, scale, offset, params);
结果示例如下:
输入数据(srcLocal): [-4.4, 2.5, -2.9, -3.1, -1.5, -4.8, 1.8, 3.5, 4.5, 1.1, -2.7, 0.5, ... 1.6] 输入数据(scale矢量): [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ... 1] 输入数据(scale标量): [1] 输入数据(offset矢量): [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ... 0] 输入数据(offset标量): [0] 输出数据(dstLocal): [-4, 3, -3, -3, -1, -5, 2, 4, 5, 1, -3, 1, ... 2]






