run()
功能说明
运行量化算法,初始化Calibrator后通过run()函数来执行量化。
函数原型
calibrator.run( int_infer=False)
参数说明
参数名  | 
输入/返回值  | 
含义  | 
使用限制  | 
|---|---|---|---|
int_infer  | 
输入  | 
是否使用int8matmul进行伪量化计算。  | 
可选。 数据类型:bool。 默认值为False。 该参数仅适用于W8A8场景,W8A16场景下该参数无效。  | 
调用示例
from msmodelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig
quant_config = QuantConfig(dev_type='cpu', pr=0.5, mm_tensor=Flase)
model = AutoModel.from_pretrained('THUDM/chatglm2-6b', torch_dtype=torch.float32, trust_remote_code=True).cpu()   #根据模型实际路径配置
calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L0')
calibrator.run(int_infer=False) 
calibrator.save(qaunt_weight_save_path)
父主题: PyTorch