昇腾社区首页
中文
注册

推理量化精度问题的挑战

在昇腾平台上部署大模型时,需特别关注模型的推理性能和精度之间的平衡。而量化技术作为提高推理效率的有效手段,能够显著提升模型的推理速度。但在量化过程中也面临激活值难量化、离群值难量化及离群值误差累积等挑战,具体请参见表1

表1 问题量化场景列表

场景

量化难点

激活值难量化

激活值动态生成,分布范围广,离群值多,直接量化易导致关键特征丢失。

离群值难量化

离群值难界定,且在量化过程中存在以下问题:

  • 将离群值纳入量化区间,导致非离群值被压缩到狭窄的量化区间内,将会造成精度损失。
  • 不将离群值纳入量化区间,导致离群值量化后被裁剪为整数范围的最小值或最大值,丢失部分离群值信息,造成精度损失。

离群值误差累积

离群值聚集在特定通道(如Transformer注意力层输出通道),导致局部量化误差逐层传递,最终影响全局精度。

为了有效解决这些问题,我们可以使用msModelSlim量化压缩工具的离群值抑制算法,并结合精度调优,快速减少量化带来的精度损失,确保模型在实际应用中具备准确性和稳定性。