在Matmul计算时支持A矩阵half类型输入,B矩阵int8类型输入,该场景下,需要调用伪量化接口进行伪量化。调用伪量化接口后,将数据从GM搬出到L1时,会执行伪量化操作,将B矩阵转化为half类型。本节的伪量化接口提供对B矩阵的所有数据采用同一量化系数进行伪量化的功能。
请在Iterate或者IterateAll之前调用该接口。
1 | __aicore__ inline void SetAntiQuantScalar(const SrcT offsetScalar, const SrcT scaleScalar) |
参数名 |
输入/输出 |
描述 |
---|---|---|
offsetScalar |
输入 |
伪量化系数,用于加 |
scaleScalar |
输入 |
伪量化系数,用于乘 |
无
Atlas推理系列产品AI Core
无