简介
大模型压缩是指将大语言模型(LLM)减小体积、减少计算资源消耗和加快推理速度的技术,压缩技术有助于在资源有限的设备上部署模型。
目前支持对包括但不限于表1中的大模型进行量化。
模型名称  | 
量化类型  | 
||
|---|---|---|---|
w8a16  | 
w8a8  | 
稀疏量化  | 
|
BaiChuan2-13B  | 
-  | 
√  | 
-  | 
BaiChuan2-7B  | 
-  | 
√  | 
-  | 
ChatGLM2-6B  | 
-  | 
√  | 
√  | 
ChatGLM3-6B  | 
-  | 
-  | 
-  | 
CodeGeeX2-6B  | 
-  | 
√  | 
-  | 
CodeLLama-34B  | 
-  | 
√  | 
√  | 
Gemma-7B  | 
-  | 
√  | 
-  | 
LLaMA2-13B  | 
-  | 
√  | 
-  | 
LLaMA-33B  | 
-  | 
-  | 
√  | 
LLaMA2-70B  | 
√  | 
√  | 
-  | 
LLaMA2-7B  | 
-  | 
√  | 
-  | 
LLaMA3-70B  | 
√  | 
-  | 
-  | 
LLaMA-65B  | 
√  | 
√  | 
-  | 
Qwen1.5-32B  | 
-  | 
√  | 
-  | 
Qwen1.5-72B  | 
√  | 
-  | 
-  | 
Qwen1.5-chat 72B  | 
-  | 
-  | 
-  | 
Qwen1.5-chat-14B  | 
-  | 
√  | 
√  | 
Qwen-14B  | 
-  | 
√  | 
-  | 
Qwen-72B  | 
√  | 
-  | 
-  | 
StarCoder-15.5B  | 
-  | 
√  | 
-  | 
Starcoder2-15B  | 
-  | 
√  | 
-  | 
llava-1.6-13B  | 
√  | 
-  | 
-  | 
 大模型压缩技术主要针对常规大语言模型进行量化压缩,但在量化拥有特殊结构的模型时,msModelSlim工具可能存在以下限制:
- MOE模型支持W8A8_per-token量化场景、W8A16 per-channel量化场景和W8A16 per-group量化场景,不支持lowbit稀疏量化场景。
 - 多模态模型仅支持W8A16量化场景,不支持W8A8量化场景和lowbit算法稀疏量化场景。
 
父主题: 大模型压缩