开发者
资源

简介

本节介绍基于torch module训练后量化的使用场景。

该特性仅在以下产品支持,使用时请确保PyTorch的版本2.1.0,详细配套请参见表1

Atlas 350 加速卡

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品

使用场景

基于torch module的训练后量化与基于图的量化的区别是:

基于模型图结构的优化压缩,要求PyTorch模型能够导出ONNX模型,基于图模型可以完成Conv+BN、Matmul+Add等图融合操作,压缩之后网络性能更好;而基于torch module的训练后量化没有上面的使用约束。

使用前提

使用该章节特性对原始待量化模型的要求:原始待量化模型中的算子必须是NPU支持的,如果存在NPU不支持的算子,量化后的部署模型在NPU上将无法成功推理。您可以通过如下方法检查算子是否均为NPU支持的:执行量化前, 需要确保PyTorch训练脚本能够在NPU上跑通,详细操作请参见《PyTorch 训练模型迁移调优指南》