模型压缩量化

量化可以使模型压缩，减少计算量。

昇腾仅支持对Cube算子（MatMul、Conv）的量化。
由于量化会插入一些数据转换算子，可能会导致性能劣化，如果需要量化，建议量化后使用AOE等手段进行优化，对比量化前后的性能。AOE方法参考ONNX模型调优章节。

量化方法包括以下几种：

通过ATC进行量化：进行ATC转换时使用--compression_optimize_conf参数，直接得到量化后的OM文件，使用方法详见《ATC离线模型编译工具用户指南》的“参数说明”章节。
AMCT_ONNX：针对ONNX进行量化，需下载并安装“AMCT（ONNX）”，相当于ATC参数量化的ONNX版本。AMCT工具在CANN软件下载链接中获取，AMCT支持联合量化，在resnet结构上可能会有额外的性能提升。
msModelSlim工具：针对ONNX进行量化，CANN包自带工具，无需安装，支持超2G的ONNX模型量化，使用指导请参考msModelSlim工具。

父主题： 优化方法