反量化融合

功能

支持量化好的k,v传入,降低显存占用。由于传入的q不是量化的,故又名伪量化。

开启方式

参数“quantType”置为TYPE_DEQUANT_FUSION。

当以上参数开启时,通过参数hasQuantOffset指明传入的量化后的kv是否需要相应的偏移量。

特殊约束

不支持Atlas 推理系列产品