开发者
下载

OmniQuant

OmniQuant是面向LLM的轻量级、可微分训练后量化算法,核心是风格结构变换,学习通道缩放:在可学习裁剪外加入通道缩放类结构变换,增强低比特W/A量化精度。 算法详细介绍请参见: OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models