简介
本章节介绍amct_pytorch中面向大语言模型(LLM)的量化工具。该工具以命令行工作流为核心,串联起PPL(Perplexity,困惑度) 测量、PTQ(Post-Training Quantization,训练后量化) 数据提取、PTQ参数训练及量化权重部署导出等关键能力。同时,借助模型适配器、量化算法注册表和量化数据类型注册表,实现了不同模型架构与量化策略的灵活组合。
工具概览
上述命令行工具安装在$HOME/.local/lib/python3.x/site-packages/amct_pytorch路径(以非root用户安装AMCT工具为例),该工具包括的模块如下,端到端样例请参见Qwen-3.6-MoE一站式样例。
模块 |
路径 |
作用 |
|---|---|---|
CLI 入口 |
amct_pytorch/cli/llm/ |
提供四类命令行入口:
|
工作流 |
amct_pytorch/workflows/ |
支持编排PPL 评估、校准数据提取、PTQ优化训练和部署导出等功能。 |
模型适配器 |
amct_pytorch/common/models/llm/ |
适配DeepSeek、Qwen、LongCat、Pangu、GLM等模型结构。 |
量化算法 |
amct_pytorch/algorithms/quant/ |
提供LWC、LAC、OmniQuant、Learnable Hadamard、AutoRound等算法组件。 |
量化数据类型 |
amct_pytorch/quantization/dtypes/ |
提供mxfp、int等量化/反量化实现。 |
支持的典型能力:
- 基准评估:支持在WikiText数据集上计算BF16或量化模型的困惑度(PPL)。
- 数据提取:利用Pileval数据高效提取PTQ校准所需的输入激活及中间层结果。
- 块级优化:基于Block粒度,对指定量化目标执行PTQ参数训练与优化。
- 模型导出:输出适配部署环境的safetensors权重文件及对应的量化配置信息。
- 灵活配置:通过bit_config灵活设定全局或分组的权重/激活(W/A)量化比特数。
- 算法选择:通过algos参数自由组合并选择可训练的量化算法策略。
环境准备
确保模型目录为HuggingFace/safetensors格式,并包含config.json、tokenizer相关文件以及model.safetensors.index.json。支持的模型适配器名称以及对应的大模型为:
模型名称(--model_name) |
说明 |
|---|---|
DeepSeek V3.2 |
|
DeepSeek V4 |
|
Qwen3 Dense |
|
Qwen3 MoE |
|
Qwen3.5 Dense |
|
Qwen3.5 MoE |
|
Qwen3.6 MoE |
|
Qwen3 Next |
|
LongCat Flash Lite |
|
LongCat Next |
|
GLM-5.1 |
下载上述大模型时,请确保服务链接网络,然后依次执行如下命令:
