昇腾社区首页
中文
注册

大语言模型列表

以下模型需配合ATB Models模型库使用,ATB Models的安装方式请参见《MindIE安装指南》中的“安装MindIE > 方式二:物理机安装方式 > 环境准备 > 安装ATB Models”章节

MindIE支持的大语言模型列表如下所示。

MoE(Mixture-of-Experts,混合专家模型)

模型名称

多卡能力

数据类型

量化

MTP

数据并行

负载均衡

服务化

长序列

模型权重链接

DeepSeek-R1-670B

  • (W4A8)Atlas 800I A2 推理服务器(64G):支持的卡数为8。
  • (W8A8)Atlas 800I A2 推理服务器(64G):支持的卡数为16。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器(64G)支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持
  • W4A8量化:仅Atlas 800I A2 推理服务器(64G)支持
  • W8A8量化:仅Atlas 800I A2 推理服务器(64G)支持
  • W8A16量化:仅Atlas 800I A2 推理服务器(64G)支持

Atlas 800I A2 推理服务器(64G)支持

TP+DP+EP+SP

Atlas 800I A2 推理服务器(64G)支持

MindIE Service:支持

Atlas 800I A2 推理服务器(64G)支持的长度最长为128K

链接

DeepSeek-V2-Lite-16B

  • Atlas 800I A2 推理服务器:支持的卡数为2、4或8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器支持
  • BF16:仅Atlas 800I A2 推理服务器支持

W8A16量化:仅Atlas 800I A2 推理服务器支持

不支持

不支持

不支持

MindIE Service:支持

Atlas 800I A2 推理服务器(64G)支持的长度最长为128K

链接

DeepSeek-V2-236B

  • Atlas 800I A2 推理服务器(64G):支持的卡数为16。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器(64G)支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持

W8A8量化:仅Atlas 800I A2 推理服务器(64G)支持

不支持

不支持

不支持

MindIE Service:支持

Atlas 800I A2 推理服务器(64G)支持的长度最长为128K

链接

DeepSeek-V3-670B

  • (W4A8)Atlas 800I A2 推理服务器(64G):支持的卡数为8。
  • (W8A8)Atlas 800I A2 推理服务器(64G)支持的卡数为16。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器(64G)支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持
  • W4A8量化:仅Atlas 800I A2 推理服务器(64G)支持
  • W8A8量化:仅Atlas 800I A2 推理服务器(64G)支持
  • W8A16量化:仅Atlas 800I A2 推理服务器(64G)支持

Atlas 800I A2 推理服务器(64G)支持

TP+DP+EP+SP

Atlas 800I A2 推理服务器(64G)支持

MindIE Service:支持

Atlas 800I A2 推理服务器(64G)支持的长度最长为128K

链接

Mixtral-8x7B-Instruct-V0.1

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:支持的卡数为4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持

W8A8量化:仅Atlas 800I A2 推理服务器支持

不支持

不支持

不支持

MindIE Service:支持

不支持

链接

Mixtral-8x22B-Instruct-V0.1

  • Atlas 800I A2 推理服务器(64G):支持的卡数为8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器(64G)支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持

不支持

不支持

不支持

不支持

MindIE Service:支持

不支持

链接

Qwen2-57B-A14B

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:不支持
  • BF16:仅Atlas 800I A2 推理服务器支持

不支持

不支持

不支持

不支持

MindIE Service:支持

不支持

链接

Baichuan

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

Baichuan2-7B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1。
  • FP16:支持
  • BF16:不支持

W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Baichuan2-13B

  • Atlas 800I A2 推理服务器:支持的卡数为2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1或2。
  • FP16:支持
  • BF16:不支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • W8A16量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Bloom

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

Bloom-7B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为4。
  • FP16:支持
  • BF16:不支持

不支持

不支持

不支持

链接

Bloom-176B

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:支持
  • BF16:不支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • W8A16量化:仅Atlas 800I A2 推理服务器支持

不支持

不支持

链接

ChatGLM

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

ChatGLM3-6B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1或2。
  • FP16:支持
  • BF16:不支持

W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

GLM4-9B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1或2。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持

MindIE Service:支持

Atlas 800I A2 推理产品(64G)支持的长度最长为1M

链接

CodeLLaMA

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

CodeLLaMA-34B

  • Atlas 800I A2 推理服务器(32G):支持的卡数为4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器(32G)支持
  • W8A8量化:仅Atlas 800I A2 推理服务器(32G)支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持

MindIE Service:支持

不支持

链接

DeepSeek

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

DeepSeek-R1-Distill-Llama-8B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持

MindIE Service:支持

不支持

链接

DeepSeek-R1-Distill-Llama-70B

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持

W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

DeepSeek-R1-Distill-Qwen-1.5B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持

MindIE Service:支持

不支持

链接

DeepSeek-R1-Distill-Qwen-7B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持

MindIE Service:支持

不支持

链接

DeepSeek-R1-Distill-Qwen-14B

  • Atlas 800I A2 推理服务器:支持的卡数为2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持

MindIE Service:支持

不支持

链接

DeepSeek-R1-Distill-Qwen-32B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器支持
  • BF16:仅Atlas 800I A2 推理服务器支持

W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

LLaMA

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

LLaMA3-8B

  • Atlas 800I A2 推理服务器(32G):支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器(32G)支持

不支持

MindIE Service:支持

不支持

链接

LLaMA3-70B

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器支持
  • BF16:仅Atlas 800I A2 推理服务器支持

W8A16量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

LLaMA3.1-8B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

LLaMA3.1-70B

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:支持的卡数为2或4。
  • FP16:仅Atlas 800I A2 推理服务器支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • kv cache量化:仅Atlas 800I A2 推理服务器支持
  • W8A8C8量化:仅Atlas 800I A2 推理服务器(64G)支持

MindIE Service:支持

Atlas 800I A2 推理产品(64G)支持的长度最长为128K

链接

LLaMA3.1-405B

  • Atlas 800I A2 推理服务器(64G):支持的卡数为16或32。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:仅Atlas 800I A2 推理服务器(64G)支持
  • BF16:仅Atlas 800I A2 推理服务器(64G)支持

不支持

MindIE Service:支持

不支持

链接

Qwen

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

Qwen2-7B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:仅Atlas 300I Duo 推理卡支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Qwen2-72B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:不支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • W8A16量化:仅Atlas 800I A2 推理服务器支持
  • KV cache量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

Atlas 800I A2 推理服务器(64G)支持的长度最长为128K

链接

Qwen2.5-7B

  • Atlas 800I A2 推理服务器:支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:仅Atlas 300I Duo 推理卡支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Qwen2.5-14B

  • Atlas 800I A2 推理服务器:支持的卡数为2、4或8。
  • Atlas 300I Duo 推理卡:1、2或4。
  • FP16:仅Atlas 300I Duo 推理卡支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • 稀疏量化:仅Atlas 300I Duo 推理卡支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • W8A8C8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Qwen2.5-32B

  • Atlas 800I A2 推理服务器:支持的卡数为4或8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:不支持
  • BF16:仅Atlas 800I A2 推理服务器支持

W8A8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Qwen2.5-72B

  • Atlas 800I A2 推理服务器:支持的卡数为8。
  • Atlas 300I Duo 推理卡:不支持。
  • FP16:不支持
  • BF16:仅Atlas 800I A2 推理服务器支持
  • W8A8量化:仅Atlas 800I A2 推理服务器支持
  • W8A8C8量化:仅Atlas 800I A2 推理服务器支持

MindIE Service:支持

不支持

链接

Yi

模型名称

多卡能力

数据类型

量化

服务化

长序列

模型权重链接

Yi-6B-200K

  • Atlas 800I A2 推理服务器(32G):支持的卡数为1、2、4或8。
  • Atlas 300I Duo 推理卡:支持的卡数为1、2或4。
  • FP16:支持
  • BF16:仅Atlas 800I A2 推理服务器支持

不支持

不支持

不支持

链接