MTP(Multi-Token Prediction,多Token预测)是DeepSeek中提出的一种用于单次生成多个token的并行解码方法。 MTP并行解码的核心思想是在推理过程中,模型不仅预测下一个token,而且会同时预测多个token,从而显著提升模型生成速度。
表 1 MTP特性补充参数:ModelDeployConfig中的ModelConfig参数 [object Object][object Object]
MTP与以下特性可支持叠加:
- 支持prefix cache 和 kvcache池化
- 异步调度
- kv_cache_int8量化
- function call
- 思考解析
- PD分离(P、D节点需要同时配置)
MTP与以下特性可支持在部分场景叠加
- context_parallel
- sequence_parallel
- Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
- 当前仅DeepSeek-R1和DeepSeek-V3的W8A8量化模型、KV Cache int8量化模型支持此特性。
- 该特性支持W4A8量化。
- 该特性不能和并行解码、Multi-LoRA、SplitFuse同时使用。
- 该特性在PD混部场景叠加context_parallel和sequence_parallel时,仅支持num_speculative_tokens配置为1
- 该特性在大EP场景叠加context_parallel和sequence_parallel时,仅P节点支持开启context_parallel和sequence_parallel。
- 该特性暂不支持n、best_of、use_beam_search、logprobs等与多序列推理相关的后处理参数。
- MTP惩罚类后处理仅支持重复惩罚。