按元素做反量化计算,比如将int32_t数据类型反量化为half/float等数据类型。本接口最多支持输入为二维数据,不支持更高维度的输入。
下面通过两个具体的示例来解释参数的配置和计算逻辑(下文中DequantParams类型为存储shape信息的结构体{m, n, calCount}):
当用户将模板参数中的mode配置为DEQUANT_WITH_SINGLE_ROW时:
针对DequantParams {m, n, calCount}, 若同时满足以下3个条件:
此时 {1, n, calCount}会被视作为 {n / calCount, calCount, calCount} 进行反量化的计算。
具体效果可看下图所示,传入的DequantParams为 {1, 16, 8}。因为dstT为float,所以calCount满足为8的倍数,在DEQUANT_WITH_SINGLE_ROW模式下会将{1, 2 * 8, 8}转换为 {2, 8, 8}进行计算。
以数据类型int32_t,shape为[m, n]的输入srcTensor,数据类型scaleT,shape为[n]的输入deqScale和数据类型dstT,shape为[m, n]的输出dstTensor为例,描述AscendDequant高阶API内部算法框图,如下图所示。
计算过程分为如下几步,均在Vector上进行:
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer, DequantParams params) |
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, DequantParams params) |
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const scaleT deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer, DequantParams params) |
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const scaleT deqScale, DequantParams params) |
由于该接口的内部实现中涉及复杂的数学计算,需要额外的临时空间来存储计算过程中的中间变量。临时空间支持接口框架申请和开发者通过sharedTmpBuffer入参传入两种方式。
接口框架申请的方式,开发者需要预留临时空间;通过sharedTmpBuffer传入的情况,开发者需要为sharedTmpBuffer申请空间。临时空间大小BufferSize的获取方式如下:通过GetAscendDequantMaxMinTmpSize中提供的GetAscendDequantMaxMinTmpSize接口获取需要预留空间的范围大小。
以下接口不推荐使用,新开发内容不要使用如下接口:
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer, const uint32_t calCount) |
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const LocalTensor<uint8_t>& sharedTmpBuffer) |
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale, const uint32_t calCount) |
1 2 | template <typename dstT, typename scaleT, DeQuantMode mode = DeQuantMode::DEQUANT_WITH_SINGLE_ROW> __aicore__ inline void AscendDequant(const LocalTensor<dstT>& dstTensor, const LocalTensor<int32_t>& srcTensor, const LocalTensor<scaleT>& deqScale) |
参数名 |
描述 |
---|---|
dstT |
目的操作数的数据类型。 |
scaleT |
deqScale的数据类型。 |
mode |
决定当DequantParams为{1, n, calCount}时的计算逻辑,传入enum DeQuantMode,支持以下 2 种配置:
|
参数名 |
输入/输出 |
描述 |
||
---|---|---|---|---|
dstTensor |
输出 |
目的操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。
|
||
srcTensor |
输入 |
源操作数。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 shape为 [m, n],n个输入数据所占字节数要求32字节对齐。 |
||
deqScale |
输入 |
源操作数。类型为标量或者LocalTensor。类型为LocalTensor时,支持的TPosition为VECIN/VECCALC/VECOUT。 |
||
sharedTmpBuffer |
输入 |
临时缓存。类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 临时空间大小BufferSize的获取方式请参考GetAscendDequantMaxMinTmpSize。 |
||
params |
输入 |
srcTensor的shape信息。DequantParams类型,具体定义如下:
|
无
1 2 3 4 | rowLen = m; // m = 4 colLen = n; // n = 8 //输入srcLocal的shape为4*8,类型为int32_t,deqScaleLocal的shape为8,类型为float,预留临时空间 AscendC::AscendDequant(dstLocal, srcLocal, deqScaleLocal, {rowLen, colLen, deqScaleLocal.GetSize()}); |
结果示例如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | 输入数据(srcLocal) int32_t数据类型: [ -8 5 -5 -7 -3 -8 3 6 9 2 -5 0 0 -5 -7 0 -6 0 -2 3 -2 8 5 2 2 2 -4 5 -4 4 -8 3 ] 反量化参数deqScale float数据类型: [ 10.433567 10.765296 -30.694275 -65.47741 8.386527 -89.646194 65.11153 42.213394] 输出数据(dstLocal) float数据类型: [-83.46854 53.82648 153.47137 458.34186 -25.15958 717.16956 195.33458 253.28036 93.9021 21.530592 153.47137 -0. 0. 448.23096 -455.7807 0. -62.601402 0. 61.38855 -196.43222 -16.773054 -717.16956 325.55762 84.42679 20.867134 21.530592 122.7771 -327.38705 -33.54611 -358.58478 -520.8922 126.64018 ] |