使用样例
限制与约束
- Atlas 800I A2 推理服务器和Atlas 800I A3 超节点支持此特性。
- 当前仅DeepSeek-R1和DeepSeek-V3的W8A8量化模型、KV Cache int8量化模型支持此特性。
- 该特性不能和并行解码、Multi LoRA、SplitFuse、长序列特性同时使用。
- 该特性暂不支持n、best_of、use_beam_search、logprobs等与多序列推理相关的后处理参数。
- MTP惩罚类后处理仅支持重复惩罚。
操作步骤
- 配置服务化参数。该特性需配合MindIE Motor使用,按照表1在{MindIE安装目录}/latest/mindie-service/conf/config.json配置文件中添加对应参数,样例如下所示。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
"ModelDeployConfig" : { "maxSeqLen" : 2560, "maxInputTokenLen" : 2048, "truncation" : false, "ModelConfig" : [ { "plugin_params": "{\"plugin_type\":\"mtp\",\"num_speculative_tokens\": 1}", "modelInstanceType" : "Standard", "modelName" : "DeepSeek-R1_w8a8", "modelWeightPath" : "/data/weights/DeepSeek-R1_w8a8", "worldSize" : 8, "cpuMemSize" : 5, "npuMemSize" : -1, "backendType" : "atb", "trustRemoteCode" : false } ] },
- 启动服务,具体请参考启动服务。
父主题: MTP