量化压缩

配置项

说明

使用场景

enable_compress_weight

使能全局weight压缩。

AICore支持Weight压缩功能,通过该参数,可以对Weight进行数据压缩,在进行算子计算时,对Weight进行解压缩,从而达到减少带宽、提高性能的目的。

该参数不能与compress_weight_conf同时使用。

  • True:表示使能。
  • False:表示关闭。默认为False。

配置示例:

custom_op.parameter_map["enable_compress_weight"].b = True

在线推理

compress_weight_conf

要压缩的node节点列表配置文件路径以及文件名。node节点主要为conv算子、fc算子。

格式要求:支持大小写字母(a-z,A-Z)、数字(0-9)、下划线(_)、中划线(-)、句点(.)、中文字符。

该参数不能与enable_compress_weight参数同时使用。

weight压缩配置文件中的算子列表由昇腾模型压缩工具输出(输出路径为非均匀量化结果路径下记录非均匀量化层名的文件,例如:module/results/calibration_results/module_nuq_layer_record.txt),文件内容即为node名称列表,

配置文件compress_weight_nodes.cfg样例如下所示,node名称之间以“;”间隔开。

conv1;fc1;conv2_2/x1;fc2;conv5_32/x2;fc6

配置示例:

custom_op.parameter_map["compress_weight_conf"].s = tf.compat.as_bytes("/home/test/compress_weight_nodes.cfg")

在线推理