GPTQ
GPTQ(Generative Pre-trained Transformer Quantization)是一种针对大模型的仅权重训练后量化(PTQ)方法,核心思路是逐层贪心量化,通过数学优化最小化量化误差。针对每个量化算子,根据激活值计算海森矩阵,分块将权重进行微调,最小化量化误差,最终输出调整后的权重以及量化因子。
父主题: 仅权重量化算法
GPTQ(Generative Pre-trained Transformer Quantization)是一种针对大模型的仅权重训练后量化(PTQ)方法,核心思路是逐层贪心量化,通过数学优化最小化量化误差。针对每个量化算子,根据激活值计算海森矩阵,分块将权重进行微调,最小化量化误差,最终输出调整后的权重以及量化因子。