Quantile分位数量化算法
Quantile算法考虑模型数值分布特征,通过分位数统计动态调整量化范围,避免极值点对量化精度的影响。该算法流程为:
以512个batch的校准数据为例:
- 初始化:记录首个batch的最大值作为初始量化阈值。
- 滑动平均:对后续batch的最大值进行指数滑动平均,平滑极值影响。
- 计算缩放因子:根据最终统计值计算量化缩放因子。
数据表示如下:

该算法适用于需要较高量化精度、数据分布存在异常值或离群点、有校准数据可用的场景,算法优势为:
- 精度高于Cast算法。
- 量化校准资源消耗小。
- 有效抑制极值点影响。
父主题: 全量化算法