MTP-加速特性-特性介绍-MindIE LLM-大语言模型推理框架-MindIE3.0.0开发文档-昇腾社区

[object Object]

MTP（Multi-Token Prediction，多Token预测）是DeepSeek中提出的一种用于单次生成多个token的并行解码方法。 MTP并行解码的核心思想是在推理过程中，模型不仅预测下一个token，而且会同时预测多个token，从而显著提升模型生成速度。

[object Object]

开启MTP特性，需要配置的参数如所示。

表 1 MTP特性补充参数：ModelDeployConfig中的ModelConfig参数 [object Object][object Object]

[object Object]undefined

[object Object]

MTP与以下特性可支持叠加：

MTP与以下特性可支持在部分场景叠加

[object Object]

Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
当前仅DeepSeek-R1和DeepSeek-V3的W8A8量化模型、KV Cache int8量化模型支持此特性。
该特性支持W4A8量化。
该特性不能和并行解码、Multi-LoRA、SplitFuse同时使用。
该特性在PD混部场景叠加context_parallel和sequence_parallel时，仅支持num_speculative_tokens配置为1
该特性在大EP场景叠加context_parallel和sequence_parallel时，仅P节点支持开启context_parallel和sequence_parallel。
该特性暂不支持n、best_of、use_beam_search、logprobs等与多序列推理相关的后处理参数。
MTP惩罚类后处理仅支持重复惩罚。

[object Object]

打开Server的config.json文件。
- whl包安装方式：
  
  [object Object]
- run包安装方式：
  
  [object Object]
配置服务化参数。在Server的config.json文件添加"plugin_params"字段，参数字段解释请参见，服务化参数说明请参见章节，参数配置示例如下。

[object Object]
启动服务。
- whl包安装方式：
  
  [object Object]
- run包安装方式：
  
  [object Object]