简介

本章节介绍amct_pytorch中面向大语言模型（LLM）的量化工具。该工具以命令行工作流为核心，串联起PPL（Perplexity，困惑度）测量、PTQ（Post-Training Quantization，训练后量化）数据提取、PTQ参数训练及量化权重部署导出等关键能力。同时，借助模型适配器、量化算法注册表和量化数据类型注册表，实现了不同模型架构与量化策略的灵活组合。

工具概览

上述命令行工具安装在$HOME/.local/lib/python3.x/site-packages/amct_pytorch路径（以非root用户安装AMCT工具为例），该工具包括的模块如下，端到端样例请参见Qwen-3.6-MoE一站式样例。

模块	路径	作用
CLI 入口	amct_pytorch/cli/llm/	提供四类命令行入口： eval：评估PPL困惑度 extract_ptq_data：提取PTQ校准数据 ptq：进行PTQ优化训练 deploy：导出部署权重
工作流	amct_pytorch/workflows/	支持编排PPL 评估、校准数据提取、PTQ优化训练和部署导出等功能。
模型适配器	amct_pytorch/common/models/llm/	适配DeepSeek、Qwen、LongCat、Pangu、GLM等模型结构。
量化算法	amct_pytorch/algorithms/quant/	提供LWC、LAC、OmniQuant、Learnable Hadamard、AutoRound等算法组件。
量化数据类型	amct_pytorch/quantization/dtypes/	提供mxfp、int等量化/反量化实现。

支持的典型能力：

基准评估：支持在WikiText数据集上计算BF16或量化模型的困惑度（PPL）。
数据提取：利用Pileval数据高效提取PTQ校准所需的输入激活及中间层结果。
块级优化：基于Block粒度，对指定量化目标执行PTQ参数训练与优化。
模型导出：输出适配部署环境的safetensors权重文件及对应的量化配置信息。
灵活配置：通过bit_config灵活设定全局或分组的权重/激活（W/A）量化比特数。
算法选择：通过algos参数自由组合并选择可训练的量化算法策略。

环境准备

确保模型目录为HuggingFace/safetensors格式，并包含config.json、tokenizer相关文件以及model.safetensors.index.json。支持的模型适配器名称以及对应的大模型为：

模型名称（--model_name）	说明
deepseek_v3_2	DeepSeek V3.2
deepseek_v4	DeepSeek V4
qwen3	Qwen3 Dense
qwen3_moe	Qwen3 MoE
qwen3_5	Qwen3.5 Dense
qwen3_5_moe	Qwen3.5 MoE
qwen3_6_moe	Qwen3.6 MoE
qwen3_next	Qwen3 Next
longcat_lite	LongCat Flash Lite
longcat_next	LongCat Next
glm5	GLM-5.1

下载上述大模型时，请确保服务链接网络，然后依次执行如下命令：

安装依赖：(以非root用户安装为例)
```
pip3 install  huggingface_hub --user
```
下载模型
- 点击模型中的跳转链接，进入模型界面，单击上面的复制按钮，获取模型名称，如下图所示：
- 下载模型，命令如下：
```
huggingface-cli download --resume-download deepseek-ai/DeepSeek-V4-Pro --local-dir ./your_path
```
  其中：
  - --resume-download：用来指定要下载的模型名称。
  - --local-dir：模型在本地的存放路径，支持相对路径。

父主题： 基于LLM的量化