简介

大模型压缩是指将大语言模型（LLM）减小体积、减少计算资源消耗和加快推理速度的技术，压缩技术有助于在资源有限的设备上部署模型。

目前支持对包括但不限于表1中的大模型进行量化。

表1 大模型量化已验证PyTorch模型列表
模型名称	量化类型
模型名称	w8a16	w8a8	稀疏量化
BaiChuan2-13B	-	√	-
BaiChuan2-7B	-	√	-
ChatGLM2-6B	-	√	√
ChatGLM3-6B	-	-	-
CodeGeeX2-6B	-	√	-
CodeLLama-34B	-	√	√
Gemma-7B	-	√	-
LLaMA2-13B	-	√	-
LLaMA-33B	-	-	√
LLaMA2-70B	√	√	-
LLaMA2-7B	-	√	-
LLaMA3-70B	√	-	-
LLaMA-65B	√	√	-
Qwen1.5-32B	-	√	-
Qwen1.5-72B	√	-	-
Qwen1.5-chat 72B	-	-	-
Qwen1.5-chat-14B	-	√	√
Qwen-14B	-	√	-
Qwen-72B	√	-	-
StarCoder-15.5B	-	√	-
Starcoder2-15B	-	√	-
llava-1.6-13B	√	-	-

大模型压缩技术主要针对常规大语言模型进行量化压缩，但在量化拥有特殊结构的模型时，msModelSlim工具可能存在以下限制：

MOE模型支持W8A8_per-token量化场景、W8A16 per-channel量化场景和W8A16 per-group量化场景，不支持lowbit稀疏量化场景。
多模态模型仅支持W8A16量化场景，不支持W8A8量化场景和lowbit算法稀疏量化场景。

父主题： 大模型压缩