大模型量化工具将高位浮点数转为低位的定点数,例如16bit降低到8bit,直接减少模型权重的体积,生成量化参数和权重文件。在无需训练成本的前提下,完成大模型的训练后压缩并最大程度保障其精度。
目前支持对包括但不限于表1中的大模型进行量化。
如下命令如果使用非root用户安装,需要在安装命令后加上--user,例如:pip3 install onnx --user。
pip3 install numpy==1.25.2 pip3 install transformers #需大于等于4.29.1版本,LLaMA模型需指定安装4.29.1版本 pip3 install accelerate==0.21.0 pip3 install tqdm==4.66.1
关键步骤说明如下:
├── config.json ├── configuration chatglm.py ├── modeling_chatglm.py ├── pytorch_model-00001-of-00007.bin ├── pytorch_model-00002-of-00007.bin ├── pytorch_model-00003-of-00007.bin ├── pytorch_model-00004-of-00007.bin ├── pytorch_model-00005-of-00007.bin ├── pytorch_model-00006-of-00007.bin ├── pytorch_model-00007-of-00007.bin ├── pytorch_model.bin.index.json ├── quantization.py ├── README.md ├── tokenization_chatglm.py ├── tokenizer.model ├── tokenizer_config.json
大模型量化工具建议在大模型下游任务评估流程打通的前提下使用,请自行调试源码后进行如下量化配置。
pip3 install protobuf==4.24.1 pip3 install sentencepiece==0.1.99 pip3 install sympy==1.11.1
# 导入相关依赖 import torch # 若需要在npu上进行量化,则需要另外执行import torch_npu from transformers import AutoTokenizer, AutoModel # for local path tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path='./chatglm2', trust_remote_code=True) model = AutoModel.from_pretrained(pretrained_model_name_or_path='./chatglm2',trust_remote_code=True,torch_dtype=torch.float32).cpu() # 若需要在npu上进行量化,则需要设置将模型移到npu上(model = model.npu()),并配置torch_dtype=torch.float16 # 准备校准数据,请根据实际情况修改 calib_list = ["中国的首都在哪里?", "请做一首诗歌:", "我想要学习python,该怎么学习?", "请帮我写一篇关于大模型推理优化的任职报告:", "中国最值得去的几个景点"] #获取校准数据函数定义 def get_calib_dataset(tokenizer, calib_list): calib_dataset = [] for calib_data in calib_list: inputs = tokenizer([calib_data], return_tensors='pt') # 若需要在npu上进行量化,则需要设置将数据移到npu上(inputs = inputs.npu()) print(inputs) calib_dataset.append([inputs.data['input_ids'], inputs.data['position_ids'], inputs.data['attention_mask']]) return calib_dataset dataset_calib = get_calib_dataset(tokenizer, calib_list) #校准数据获取 # 量化配置,请根据实际情况修改 from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig # 导入量化配置接口 # 使用QuantConfig接口,配置量化参数,并返回量化配置实例 quant_config = QuantConfig( w_bit=8, disable_names=['transformer.encoder.layers.0.self_attention.query_key_value','transformer.encoder.layers.0.self_attention.dense', 'transformer.encoder.layers.0.mlp.dense_h_to_4h'], dev_type='cpu', # 若需要在npu上进行量化,需要指定npu(dev_type='npu'),并配置dev_id=model.device.index act_method=3, pr=0.5, mm_tensor=False ) #使用Calibrator接口,输入加载的原模型、量化配置和校准数据,定义校准 calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L1') calibrator.run() #使用run()执行量化 calibrator.save('./quant_weight') #使用save()保存模型量化参数,请根据实际情况修改路径 print('Save quant weight success!')
# 导入相关依赖 import torch # 若需要在npu上进行量化,则需要另外执行import torch_npu from transformers import AutoTokenizer, AutoModel # for local path tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path='./chatglm2', trust_remote_code=True) model = AutoModel.from_pretrained(pretrained_model_name_or_path='./chatglm2',trust_remote_code=True,torch_dtype=torch.float32).cpu() # 若需要在npu上进行量化,则需要设置将模型移到npu上(model = model.npu()) ,并配置torch_dtype=torch.float16 # 准备校准数据,请根据实际情况修改,W8A16 Data-Free模式下请忽略此步骤 calib_list = ["中国的首都在哪里?", "请做一首诗歌:", "我想要学习python,该怎么学习?", "请帮我写一篇关于大模型推理优化的任职报告:", "中国最值得去的几个景点"] #获取校准数据函数定义 def get_calib_dataset(tokenizer, calib_list): calib_dataset = [] for calib_data in calib_list: inputs = tokenizer([calib_data], return_tensors='pt') # 若需要在npu上进行量化,则需要设置将数据移到npu上(inputs = inputs.npu()) print(inputs) calib_dataset.append([inputs.data['input_ids'], inputs.data['position_ids'], inputs.data['attention_mask']]) return calib_dataset dataset_calib = get_calib_dataset(tokenizer, calib_list) #校准数据获取 # 量化配置,请根据实际情况修改 from modelslim.pytorch.llm_ptq.llm_ptq_tools import Calibrator, QuantConfig # 导入量化配置接口 # 使用QuantConfig接口,配置量化参数,并返回量化配置实例 quant_config = QuantConfig( w_bit=8, a_bit=16, disable_names=[], dev_type='cpu', # 若需要在npu上进行量化,需要指定npu(dev_type='npu' ),并配置dev_id=model.device.index w_sym=False, mm_tensor=False ) #使用Calibrator接口,输入加载的原模型、量化配置和校准数据,定义校准 calibrator = Calibrator(model, quant_config, calib_data=dataset_calib, disable_level='L1') # Data-Free模式改为calibrator = Calibrator(model, quant_config, disable_level='L0') calibrator.run() #使用run()执行量化 calibrator.save('./quant_weight') #使用save()保存模型量化参数,请根据实际情况修改路径 print('Save quant weight success!')
需注意,因为在存储量化参数过程中存在反序列化风险,所以已通过在存储过程中,将保存的量化结果文件夹权限设置为750,量化结果文件权限设置为400来消减风险。
python3 quant.py
量化任务完成后,可能会存在模型精度下降的情况,可以参考精度保持策略进行配置优化减少精度损耗。
├── anti_fp_norm.npy #LLaMA模型且已启用离群抑制功能,具体操作请参见使用离群值抑制功能,将会生成此文件。antioutlier算法生成浮点权重中的norm层权重文件,用于量化层的input和post norm的权重适配 ├── deq_scale.npy #W8A8反量化参数权重文件,Tensor数据类型为int64,deq_scale已针对反量化算子进行数据类型转换,可直接适配算子 ├── input_offset.npy #激活值量化偏移值权重文件,Tensor数据类型为float32 ├── input_scale.npy #激活值量化缩放因子权重文件,Tensor数据类型为float32 ├── quant_bias.npy #W8A8反量化参数权重文件,Tensor数据类型为int32,quant_bias已考虑原始浮点模型linear层的bias值 ├── quant_weight.npy #量化权重文件,Tensor数据类型为int8
推理部署时读取上述文件的示例代码:quant_param_dict = np.load("xxx.npy", allow_pickle=True).item()。
当save_type设置为['safe_tensor']时,量化权重会保存为safetensors文件和json描述文件,
# llama模型稀疏量化生成的权重文件部分内容 { "model.embed_tokens.weight": tensor([...]), "model.layers.0.self_attn.q_proj.weight": tensor([...]), "model.layers.0.self_attn.q_proj.input_scale": tensor([...]), "model.layers.0.self_attn.q_proj.input_offset": tensor([...]), "model.layers.0.self_attn.q_proj.quant_bias": tensor([...]), "model.layers.0.self_attn.q_proj.deq_scale": tensor([...]), "model.layers.0.self_attn.k_proj.weight": tensor([...]), ... }
# llama模型稀疏量化生成的json描述文件部分内容 { "model_quant_type": "W8A8S", # 整体量化类型为稀疏量化 "model.embed_tokens.weight": "FLOAT", # 来自原始浮点模型的embed_tokens权重 "model.layers.0.self_attn.q_proj.weight": "W8A8S", # 量化新增的第0层self_attn.q_proj的quant_weight "model.layers.0.self_attn.q_proj.input_scale": "W8A8S", # 量化新增的第0层self_attn.q_proj的input_scale "model.layers.0.self_attn.q_proj.input_offset": "W8A8S", # 量化新增的第0层self_attn.q_proj的input_offset "model.layers.0.self_attn.q_proj.quant_bias": "W8A8S", # 量化新增的第0层self_attn.q_proj的quant_bias "model.layers.0.self_attn.q_proj.deq_scale": "W8A8S", # 量化新增的第0层self_attn.q_proj的deq_scale "model.layers.0.self_attn.k_proj.weight": "W8A8S", # 量化新增的第0层self_attn.k_proj的quant_weight ... }
在量化权重生成后,可以使用伪量化模型进行推理,检验伪量化精度是否正常。伪量化是指通过torch,通过浮点运算完成量化模型运算逻辑,运算过程中的数据和真实量化的数据差异只在算子精度上。如果伪量化精度不满足预期,真实量化结果也将无法满足预期。在调用Calibrator.run()方法后,构建Calibrator时传入的model会被替换为伪量化模型,可以直接调用进行前向推理,用来测试对话效果。如果伪量化结果不理想,可以参考以下手段进行调优:
以ChatGLM2_6B为例:
观察到模型伪量化对话效果不理想,考虑进行回退操作。将disable_level设置为L1,生成量化权重。导出的量化权重缺少了key值'transformer.encoder.layers.0.mlp.dense_4h_to_h'对应的权重数据,则该线性层被回退。
如果需要回退整层layer,需要进一步生成量化权重。缺少的linear位于第0层,在QuantConfig接口中的“disable_names”增加该层其余的线性层:
'transformer.encoder.layers.0.self_attention.query_key_value','transformer.encoder.layers.0.self_attention.dense', 'transformer.encoder.layers.0.mlp.dense_h_to_4h'。再次生成的量化权重即为整层layer回退的量化权重。
不同模型的回退层存在差别,甚至校准数据集选取的不同也会导致回退层位置发生变化。在回退个数少的时候,回退指定层数为N后,会自动再回退最后一个线性层,总回退数是N+1;回退个数设置较大时,这个最后一个线性层会包含在N层里面,所以总共就回退了N层。因为不同模型对最后的分类层的敏感度不同,回退个数的多少的界限也不同。
# 离群值抑制 print("outlier suppression start...") anti_config = AntiOutlierConfig(anti_method="m2") anti_outlier = AntiOutlier(model, calib_data=dataset_calib, cfg=anti_config) anti_outlier.process() print("outlier suppression success...") # save float weight model.save_pretrained("./llama2-13b_outlier")