使用样例

限制与约束

Atlas 800I A2 推理服务器和Atlas 800I A3 超节点服务器支持此特性。
当前仅DeepSeek-R1和DeepSeek-V3的W8A8量化模型、KV Cache int8量化模型支持此特性。
该特性不能和并行解码、Multi LoRA、SplitFuse、长序列特性同时使用。
该特性暂不支持n、best_of、use_beam_search、logprobs等与多序列推理相关的后处理参数。
MTP惩罚类后处理仅支持重复惩罚。

表1 MTP补充参数：**ModelDeployConfig中的ModelConfig参数**
配置项	取值类型	取值范围	配置说明
plugin_params	std::string	plugin_type: mtp num_speculative_tokens: [1]	plugin_type设置为“mtp”，表示选择MTP特性。 num_speculative_tokens表示MTP的层数，只能设置为“1”。配置示例： {\"plugin_type\":\"mtp\",\"num_speculative_tokens\": 1}

操作步骤

配置服务化参数。该特性需配合MindIE Motor使用，按照表1在{MindIE安装目录}/latest/mindie-service/conf/config.json配置文件中添加对应参数，样例如下所示。

"ModelDeployConfig" :
{
   "maxSeqLen" : 2560,
   "maxInputTokenLen" : 2048,
   "truncation" : false,
   "ModelConfig" : [
     {
         "plugin_params": "{\"plugin_type\":\"mtp\",\"num_speculative_tokens\": 1}",
         "modelInstanceType" : "Standard",
         "modelName" : "DeepSeek-R1_w8a8",
         "modelWeightPath" : "/data/weights/DeepSeek-R1_w8a8",
         "worldSize" : 8,
         "cpuMemSize" : 5,
         "npuMemSize" : -1,
         "backendType" : "atb",
         "trustRemoteCode" : false
      }
   ]
},

启动服务，具体请参考启动服务。

父主题： MTP