模型量化

下载Llama-3.1-8B-Instruct权重和模型文件至本地，如图1所示，单击下载。
图1 下载文件至本地
执行以下命令，进入Llama目录。
```
cd ${HOME}/msit/msmodelslim/example/Llama
```
其中HOME为用户自定义安装msit的路径。
执行量化脚本，生成量化权重文件，并存入自定义存储路径中。示例命令为w8a16量化命令。
```
python3 quant_llama.py --model_path ${model_path} --save_directory ${save_directory} --device_type npu --w_bit 8 --a_bit 16 
```
其中--model_path为已下载的模型文件所在路径；--save_directory为生成的量化权重文件的存储路径。其它模型文件量化案例可参见LLAMA量化案例。
如果量化后的权重文件需要在MindIE 2.1.RC1及之前版本上部署，需要在执行原量化命令时增加--mindie_format参数，参考命令如下：
```
python3 quant_llama.py --model_path ${model_path} --save_directory ${save_directory} --device_type npu --w_bit 8 --a_bit 16 --mindie_format
```
量化完成后，结果图2所示，safetensors文件大小由15.1G压缩至8.5G。
图2 量化后的结果

生成的w8a16量化权重文件如下所示。

├── config.json                          # 配置文件
├── generation_config.json               # 配置文件
├── quant_model_description_w8a16.json   # w8a16量化后的权重描述文件
├── quant_model_weight_w8a16.safetensors # w8a16量化后的权重文件
├── tokenizer.json                       # 模型文件的tokenizer
├── tokenizer_config.json                # 模型文件的tokenizer配置文件

父主题： 模型推理