反量化融合

功能

支持量化好的k，v传入，降低显存占用。由于传入的q不是量化的，故又名伪量化。

开启方式

参数“quantType”置为TYPE_DEQUANT_FUSION。

当以上参数开启时，通过参数hasQuantOffset指明传入的量化后的kv是否需要相应的偏移量。

特殊约束

不支持Atlas 推理系列产品。

父主题： 功能列表