简介
本节介绍基于torch module训练后量化的使用场景。
该特性仅在以下产品支持,使用时请确保PyTorch的版本2.1.0,详细配套请参见表1。
Atlas 350 加速卡
使用场景
基于torch module的训练后量化与基于图的量化的区别是:
基于模型图结构的优化压缩,要求PyTorch模型能够导出ONNX模型,基于图模型可以完成Conv+BN、Matmul+Add等图融合操作,压缩之后网络性能更好;而基于torch module的训练后量化没有上面的使用约束。
使用前提
使用该章节特性对原始待量化模型的要求:原始待量化模型中的算子必须是NPU支持的,如果存在NPU不支持的算子,量化后的部署模型在NPU上将无法成功推理。您可以通过如下方法检查算子是否均为NPU支持的:执行量化前, 需要确保PyTorch训练脚本能够在NPU上跑通,详细操作请参见《PyTorch 训练模型迁移调优指南》。
父主题: 基于torch module的量化