AWQ
AWQ是一种针对大模型的训练后量化(PTQ)方法,通过感知激活的权重量化策略,在保持模型精度的同时显著降低内存占用并提升推理速度。该算法认为并非所有权重对量化误差的敏感度都相同,仅保护约1%的显著权重即可大幅减少误差。使用少量校准数据,采用网格搜索在预设范围内寻找最优缩放因子,对显著权重进行放大后再量化,通过缩小量化间隔降低误差。
父主题: 仅权重量化算法
AWQ是一种针对大模型的训练后量化(PTQ)方法,通过感知激活的权重量化策略,在保持模型精度的同时显著降低内存占用并提升推理速度。该算法认为并非所有权重对量化误差的敏感度都相同,仅保护约1%的显著权重即可大幅减少误差。使用少量校准数据,采用网格搜索在预设范围内寻找最优缩放因子,对显著权重进行放大后再量化,通过缩小量化间隔降低误差。