反量化融合 功能说明支持量化好的k,v传入,降低显存占用。由于传入的q不是量化的,故又名伪量化。 开启方式参数“quantType”置为TYPE_DEQUANT_FUSION。 当以上参数开启时,通过参数hasQuantOffset指明传入的量化后的kv是否需要相应的偏移量。 约束说明不支持Atlas 推理系列产品。 父主题: 功能列表