反量化融合
功能说明
支持量化好的k、v传入,降低显存占用。由于传入的q不是量化的,故又名伪量化。
开启方式
参数“quantType”置为TYPE_DEQUANT_FUSION。
当以上参数开启时,通过参数hasQuantOffset指明传入的量化后的kv是否需要相应的偏移量。
约束说明
不支持
父主题: 功能列表
支持量化好的k、v传入,降低显存占用。由于传入的q不是量化的,故又名伪量化。
参数“quantType”置为TYPE_DEQUANT_FUSION。
当以上参数开启时,通过参数hasQuantOffset指明传入的量化后的kv是否需要相应的偏移量。
不支持