由于硬件约束,该版本不建议使用非均匀量化的功能,获取不到性能收益。
模型在昇腾AI处理器上推理时,可通过非均匀量化提高权重压缩率(需要与ATC工具配合,通过编译时使能权重压缩),降低权重传输开销,进一步提升推理性能。非均匀量化后,如果精度仿真模型在原始PyTorch环境中推理精度不满足要求,可通过调整非均匀量化配置文件config.json中的参数来恢复模型精度,调整方法请参见手工调优。量化示例请参见获取更多样例。
非均匀量化支持量化的层以及约束如下:
支持的层类型 |
约束 |
备注 |
---|---|---|
torch.nn.Conv2d |
|
- |
torch.nn.Linear |
仅支持带bias规格的非均匀量化,且Shape必须为两维 |
- |
详细流程说明如下:
非均匀量化过程中,会根据融合json文件,获取原始模型中哪些层支持weight压缩,然后重新生成非均匀量化的部署模型和量化配置文件。