昇腾社区首页
中文
注册

模型压缩量化

量化可以使模型压缩,减少计算量。

  • 昇腾仅支持对Cube算子(MatMul、Conv)的量化。
  • 由于量化会插入一些数据转换算子,可能会导致性能劣化,如果需要量化,建议量化后使用AOE等手段进行优化,对比量化前后的性能。AOE方法参考ONNX模型调优章节。

量化方法包括以下几种:

  • 通过ATC进行量化:进行ATC转换时使用--compression_optimize_conf参数,直接得到量化后的OM文件,使用方法详见ATC离线模型编译工具用户指南参数说明章节。
  • AMCT_ONNX:针对ONNX进行量化,需下载并安装AMCT(ONNX),相当于ATC参数量化的ONNX版本。AMCT工具在CANN软件下载链接中获取,AMCT支持联合量化,在resnet结构上可能会有额外的性能提升。
  • msModelSlim工具:针对ONNX进行量化,CANN包自带工具,无需安装,支持超2G的ONNX模型量化, 使用指导请参考msModelSlim工具