开发者
资源

GPTQ

GPTQ(Generative Pre-trained Transformer Quantization)是一种针对大模型的仅权重训练后量化(PTQ)方法,核心思路是逐层贪心量化,通过数学优化最小化量化误差。针对每个量化算子,根据激活值计算海森矩阵,分块将权重进行微调,最小化量化误差,最终输出调整后的权重以及量化因子。

算法详细介绍请参见Link