异步调度

MindIE推理的过程是同步执行，一次推理的过程按照在CPU/NPU上执行可以分为以下三个阶段：

数据准备阶段（CPU上执行）
模型推理阶段（NPU上执行）
数据返回阶段（CPU上执行）

异步调度的原理是使用模型推理阶段的耗时掩盖数据准备阶段和数据返回阶段的耗时，即使用NPU上执行的时间掩盖CPU上执行的时间，以及Sampling之外的CPU耗时，但是已经EOS（终止推理）的请求会被重复计算一次，造成NPU计算资源和显存资源有部分浪费。该特性适用于maxBatchSize较大，且输入输出长度比较长的场景。

限制与约束

支持PD混部和PD分离场景。
该特性暂不支持n、best_of、use_beam_search等与多序列推理相关的后处理参数。

开启异步调度特性后，需要配置的参数如表1所示。

表1 异步调度特性补充参数：**ModelDeployConfig中的ModelConfig参数**
配置项	取值类型	取值范围	配置说明
async_scheduler_wait_time	int32_t	整型数字，取值范围：[1, 3600]	异步调度的等待时间，在开启异步调度功能时可配置。选填，默认值：120，单位：秒。

使用样例

"ModelDeployConfig" :
        {
            "maxSeqLen" : 2560,
            "maxInputTokenLen" : 2048,
            "truncation" : false,
            "ModelConfig" : [
                {
                    "modelInstanceType" : "Standard",
                    "modelName" : "llama3-8b",
                    "modelWeightPath" : "/data/atb_testdata/weights/Meta-Llama-3-8B",
                    "worldSize" : 2,
                    "cpuMemSize" : 5,
                    "npuMemSize" : 2,
                    "backendType" : "atb",
                    "trustRemoteCode" : false,
                    "async_scheduler_wait_time": 120
                }
            ]
        },

执行推理

父主题： 特性介绍