Multi Step
Multi Step特性允许推理引擎在一次调度中进行异步多次前向推理,以达到提升吞吐的效果。MindIE目前实现了异步单次推理,能够利用NPU执行时间在一定程度上掩盖前后处理时间,进而实现性能优化。

该新特性不建议在正式商用场景下开启。
限制与约束
- Atlas 800I A2 推理服务器和Atlas 800I A3 超节点支持此特性。
- 该特性仅能在使能异步调度时生效。
- 该特性不支持和Sequence Parallel(SP)、Context Parallel(CP)同时开启。
- 该特性暂不支持n、best_of、use_beam_search等与多序列推理相关的后处理参数。
- 该特性不能和Look Ahead、Memory Decoding、Splitfuse同时使用。
- 该特性暂不支持“tp>1”的使用场景。
- 开启Multi Step特性,需要配置的参数如表1所示。
PD分离部署场景下,请在D节点的ModelConfig参数中配置“multi_step”。
使用样例
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 | "ModelDeployConfig" : { "maxSeqLen" : 2560, "maxInputTokenLen" : 2048, "truncation" : false, "ModelConfig" : [ { "modelInstanceType" : "Standard", "modelName" : "DeepSeek-R1_w8a8", "modelWeightPath" : "/data/weights/DeepSeek-R1_w8a8", "worldSize" : 8, "cpuMemSize" : 5, "npuMemSize" : -1, "backendType" : "atb", "trustRemoteCode" : false, "multi_step" : 1 } ] }, |
父主题: 特性介绍