当前训练后量化工具自动对ONNX模型中的Conv和Gemm进行识别和量化,并将量化后的模型保存为.onnx文件,量化后的模型可以在推理服务器上运行,达到提升推理性能的目的。量化过程中用户需自行提供模型与数据集,调用API接口完成模型的量化调优。
ONNX模型量化包含Label-Free和Data-Free两种模式,均支持静态和动态shape模型的量化。Label-free模式下需要少量数据集矫正量化因子,Data-Free模式下无需数据集做矫正,可以直接对模型进行量化。当前ModelSlim工具提供了squant_ptq接口和post_training_quant接口两套量化接口,均支持两种模式的量化,当前以squant_ptq接口以Data-Free模式为例演示量化步骤,post_training_quant接口以Label-Free模式为例演示量化步骤。
目前支持对包括但不限于已验证模型中的模型进行模型训练后量化。