Developers
Download

简介

本章节介绍amct_pytorch中面向大语言模型(LLM)的量化工具。该工具以命令行工作流为核心,串联起PPL(Perplexity,困惑度) 测量、PTQ(Post-Training Quantization,训练后量化) 数据提取、PTQ参数训练及量化权重部署导出等关键能力。同时,借助模型适配器、量化算法注册表和量化数据类型注册表,实现了不同模型架构与量化策略的灵活组合。

工具概览

上述命令行工具安装在$HOME/.local/lib/python3.x/site-packages/amct_pytorch路径(以非root用户安装AMCT工具为例),该工具包括的模块如下,端到端样例请参见Qwen-3.6-MoE一站式样例

模块

路径

作用

CLI 入口

amct_pytorch/cli/llm/

提供四类命令行入口:

  • eval:评估PPL困惑度
  • extract_ptq_data:提取PTQ校准数据
  • ptq:进行PTQ优化训练
  • deploy:导出部署权重

工作流

amct_pytorch/workflows/

支持编排PPL 评估、校准数据提取、PTQ优化训练和部署导出等功能。

模型适配器

amct_pytorch/common/models/llm/

适配DeepSeek、Qwen、LongCat、Pangu、GLM等模型结构。

量化算法

amct_pytorch/algorithms/quant/

提供LWC、LAC、OmniQuant、Learnable Hadamard、AutoRound等算法组件。

量化数据类型

amct_pytorch/quantization/dtypes/

提供mxfp、int等量化/反量化实现。

支持的典型能力:

  • 基准评估:支持在WikiText数据集上计算BF16或量化模型的困惑度(PPL)。
  • 数据提取:利用Pileval数据高效提取PTQ校准所需的输入激活及中间层结果。
  • 块级优化:基于Block粒度,对指定量化目标执行PTQ参数训练与优化。
  • 模型导出:输出适配部署环境的safetensors权重文件及对应的量化配置信息。
  • 灵活配置:通过bit_config灵活设定全局或分组的权重/激活(W/A)量化比特数。
  • 算法选择:通过algos参数自由组合并选择可训练的量化算法策略。

环境准备

确保模型目录为HuggingFace/safetensors格式,并包含config.json、tokenizer相关文件以及model.safetensors.index.json。支持的模型适配器名称以及对应的大模型为:

模型名称(--model_name)

说明

deepseek_v3_2

DeepSeek V3.2

deepseek_v4

DeepSeek V4

qwen3

Qwen3 Dense

qwen3_moe

Qwen3 MoE

qwen3_5

Qwen3.5 Dense

qwen3_5_moe

Qwen3.5 MoE

qwen3_6_moe

Qwen3.6 MoE

qwen3_next

Qwen3 Next

longcat_lite

LongCat Flash Lite

longcat_next

LongCat Next

glm5

GLM-5.1

下载上述大模型时,请确保服务链接网络,然后依次执行如下命令:

  • 安装依赖:(以非root用户安装为例)
    pip3 install  huggingface_hub --user
  • 下载模型
    • 点击模型中的跳转链接,进入模型界面,单击上面的复制按钮,获取模型名称,如下图所示:

    • 下载模型,命令如下:
      huggingface-cli download --resume-download deepseek-ai/DeepSeek-V4-Pro --local-dir ./your_path

      其中:

      • --resume-download:用来指定要下载的模型名称。
      • --local-dir:模型在本地的存放路径,支持相对路径。