模型量化
- 下载Llama-3.1-8B-Instruct权重和模型文件至本地,如图1所示,单击下载。
- 执行以下命令,进入Llama目录。
cd ${HOME}/msit/msmodelslim/example/Llama
其中HOME为用户自定义安装msit的路径。
- 执行量化脚本,生成量化权重文件,并存入自定义存储路径中。示例命令为w8a16量化命令。
python3 quant_llama.py --model_path ${model_path} --save_directory ${save_directory} --device_type npu --w_bit 8 --a_bit 16
其中--model_path为已下载的模型文件所在路径;--save_directory为生成的量化权重文件的存储路径。其它模型文件量化案例可参见LLAMA量化案例。
如果量化后的权重文件需要在MindIE 2.1.RC1及之前版本上部署,需要在执行原量化命令时增加--mindie_format参数,参考命令如下:
python3 quant_llama.py --model_path ${model_path} --save_directory ${save_directory} --device_type npu --w_bit 8 --a_bit 16 --mindie_format
- 量化完成后,结果图2所示,safetensors文件大小由15.1G压缩至8.5G。
- 生成的w8a16量化权重文件如下所示。
├── config.json # 配置文件 ├── generation_config.json # 配置文件 ├── quant_model_description_w8a16.json # w8a16量化后的权重描述文件 ├── quant_model_weight_w8a16.safetensors # w8a16量化后的权重文件 ├── tokenizer.json # 模型文件的tokenizer ├── tokenizer_config.json # 模型文件的tokenizer配置文件
父主题: 模型推理