特性介绍

MindIE推理的过程是同步执行,一次推理的过程按照在CPU/NPU上执行可以分为以下三个阶段:

异步调度的原理是使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时,即使用NPU上执行的时间掩盖CPU上执行的时间,以及Sampling之外的CPU耗时,但是已经EOS(终止推理)的请求会被重复计算一次,造成NPU计算资源和显存资源有部分浪费。该特性适用于maxBatchSize较大,且输入输出长度比较长的场景。