支持量化好的k,v传入,降低显存占用。由于传入的q不是量化的,故又名伪量化。
参数“quantType”置为TYPE_DEQUANT_FUSION。
当以上参数开启时,通过参数hasQuantOffset指明传入的量化后的kv是否需要相应的偏移量。
不支持Atlas 推理系列产品。