昇腾社区首页
中文
注册

MOE模型介绍

Mixture of Experts(MoE)在传统transformer结构的基础上进行了两个创新。第一个部分是用Sparse MoE layer来替换transformer结构中Feed Forward Network(FFN)。每一个FFN可扮演一个专家的角色。但针对每一个token的推理,仅需激活其中部分专家即可。这部分激活专家的筛选就涉及到了moe的第二个关键机制-路由(routing)机制。这个Router决定了token在每一层会进入到哪一个专家塔中。基于这两个机制的结合,moe模型得益于其广阔的专家知识可以保证很高的模型效果,但相较于同等参数量的传统模型,他只需要激活其中部分专家,便又能同时保证其优秀的推理性能。

MOE结构的典型代表模型有Mixtral 8*7B,Mixtral 8*22B,Deepseek-16b-moe,Deepseek-V2,Grok等等。

能力支持特征矩阵:

已支持模型

数据格式

量化

并行方式

硬件平台

多机多卡推理

Mixtral 8*7B

Fp16

暂不支持

TP

Atlas 800I A2推理产品

支持

Mixtral 8*22B

Fp16

暂不支持

TP

Atlas 800I A2推理产品

支持

Deepseek-moe-16B

Fp16

暂不支持

TP

Atlas 800I A2推理产品

支持

模型配置参数

模型固有参数配置请参考官方权重文件中的config.json文件。

执行MOE模型推理

MOE类模型执行推理的方式与其他模型一致,在执行推理时您可参考传统LLM的使用方式,无需做额外配置修改。