开发者
下载

Quantile分位数量化算法

Quantile算法考虑模型数值分布特征,通过分位数统计动态调整量化范围,避免极值点对量化精度的影响。该算法流程为:

以512个batch的校准数据为例:

  1. 初始化:记录首个batch的最大值作为初始量化阈值。
  2. 滑动平均:对后续batch的最大值进行指数滑动平均,平滑极值影响。
  3. 计算缩放因子:根据最终统计值计算量化缩放因子。

数据表示如下:

该算法适用于需要较高量化精度数据分布存在异常值或离群点有校准数据可用的场景,算法优势为:

  • 精度高于Cast算法。
  • 量化校准资源消耗小。
  • 有效抑制极值点影响。