开发者
下载

AutoRound

AutoRound可学习Rounding Offset,是面向LLM的轻量级训练后量化算法,核心是把“舍入编译V”做成可学习参数,并可联合调节min/max scale,让权重在低比特量化时选择更优的舍入方向。 算法详细说明请参见:Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

说明:autoround带自定义quantize() hook,目前PTQ fake quant可用,但部署导出中export_deploy() 暂不支持该类hook。