量化因子记录文件说明

量化因子记录文件格式说明

量化因子record文件格式,为基于protobuf协议的序列化数据结构文件,通过该文件、量化配置文件以及原始网络模型文件,生成量化后的模型文件。

对于optional字段,由于protobuf协议未对重复出现的值报错,而是采用覆盖处理,因此出现重复配置的optional字段内容时会默认保留最后一次配置的值,需要用户自己保证文件的正确性

对于一般量化层需要配置包含scale_d、offset_d、scale_w、offset_w、shift_bit参数,对于AvgPool因为没有权重,因此不能够配置scale_w、offset_w参数,量化因子record文件格式参考示例如下(如下示例以inner_scale_offset_record.proto原型文件对应的量化因子为例进行说明):

record {
  key: "fc4/Tensordot/MatMul"
  value {
    scale_d: 0.0798481479
    offset_d: 1
    scale_w: 0.00297622895
    offset_w: 0
    shift_bit: 1
    dst_type: "INT8"
  }
}
record {
  key: "depthwise"
  value {
    scale_d: 0.00962011795
    offset_d: 1
    scale_w: 0.00787108205
    scale_w: 0.00787108205
    scale_w: 0.00787108205
    offset_w: 0
    offset_w: 0
    offset_w: 0
    shift_bit: 1
    shift_bit: 1
    shift_bit: 1
    skip_fusion: true
    dst_type: "INT8"
  }
}
record {
  key: "conv2d/Conv2D"
  value {
    scale_d: 0.00392156886
    offset_d: -128
    scale_w: 0.00106807391
    scale_w: 0.00104224426
    scale_w: 0.0010603976
    offset_w: 0
    offset_w: 0
    offset_w: 0
    shift_bit: 1
    shift_bit: 1
    shift_bit: 1
    dst_type: "INT8"
  }
}

通道稀疏record文件记录各稀疏层间的级联关系,其格式参考示例如下:

prune_record {
  producer {
    name: "conv_1"
    attr {
      name: "type"
      type: STRING
      s: "Conv2D"
    }
    attr {
      name: "begin"
      type: INT
      i: 0
    }
    attr {
      name: "end"
      type: INT
      i: 64
    }
  }
  consumer {
    name: "BN_1"
    attr {
      name: "type"
      type: STRING
      s: "FusedBatchNormV3"
    }
    attr {
      name: "begin"
      type: INT
      i: 0
    }
    attr {
      name: "end"
      type: INT
      i: 64
    }
  }
}

量化因子说明

对于量化层数据和权重分别需要提供量化因子scale(浮点数的缩放因子),offset(偏移量)两项,昇腾模型压缩工具采用的是统一的量化数据格式,其应用表达式为:

支持的取值范围为:

下面介绍上述表达式的由来,量化通常分为对称量化算法、非对称量化算法两类。如下所示:

  1. 对称量化算法原理

    原始高精度数据和量化后INT8数据的转换为:,其中scale是float32的浮点数,为了能够表示正负数,采用signed int8的数据类型,通过原始高精度数据转换到int8数据的操作如下,其中round为取整函数,量化算法需要确定的数值即为常数scale:

    对权值和数据的量化可以归结为寻找scale的过程,由于为有符号数,要保证正负数值表示范围的对称性,因此对所有数据首先进行取绝对值的操作,使待量化数据的范围变换为,再来确定scale。由于INT8在正数范围内能表示的数值范围为[0,127],因此scale可以通过如下方式计算得到:

    确定了scale之后,INT8数据对应的表示范围为,量化操作即为对量化数据以进行饱和,即超过范围的数据饱和到边界值,然后进行公式所示量化操作即可。

  2. 非对称量化算法原理

    与对称量化算法主要区别在于数据转换的方式不同,如下,同样需要确定scale与offset这两个常数。

    确定后通过原始高精度数据计算得到UINT8数据的转换,即为如下公式所示:

    其中,scale是FP32浮点数,为unsigned INT8定点数,offset是INT8定点数。其表示的数据范围为。若待量化数据的取值范围为,则scale和offset的计算方式如下:

昇腾模型压缩工具采用的是统一的量化数据格式,即量化数据格式统一

通过将非对称量化公式通过简单的数据变换,可以使得量化后的数据与对称量化算法在数据格式上保持一致,均为int格式。具体变换过程如下:

以int8量化为例进行说明,公式符号与之前保持一致,输入原始高精度浮点数据为,原始量化后的定点数为,量化scale,原始量化(算法要求强制过零点,否则可能会出现精度问题),原始量化的计算原理公式如下:

其中。通过上述变换,可以将量化数据也转成int8格式。确定scale和变换后的offset'后,通过原始高精度浮点数据计算得到INT8数据的转换既为如下公式所示: