昇腾社区首页
中文
注册

使用样例

限制与约束

  • Atlas 800I A2 推理服务器支持此特性。
  • Qwen2系列模型支持对接此特性。

操作步骤

本章节简单介绍如何使用Buffer Response功能。

  1. 打开MindIE Motor的config.json文件。
    cd {MindIE安装目录}/latest/mindie-service/
    vi conf/config.json
  2. 在config.json配置文件中的ScheduleConfig字段下添加以下参数。
    "bufferResponseEnabled" : true,
    "prefillExpectedTime" : 1000,
    "decodeExpectedTime" : 50
    表1 Buffer Response特性参数说明

    配置项

    取值类型

    取值范围

    配置说明

    bufferResponseEnabled

    bool

    • true
    • false

    是否开启Buffer Response特性。

    选填,默认值:false。

    prefillExpectedTime

    uint32_t

    大于等于1

    Prefill阶段Token生成的SLO期望时延。

    选填,默认值:1500。

    decodeExpectedTime

    uint32_t

    大于等于1

    Decode阶段Token生成的SLO期望时延。

    选填,默认值:50。

  3. 执行以下命令启动服务。
    ./bin/mindieservice_daemon
  4. 本样例以MindIE Benchmark工具展示调优方式,执行如下MindIE Benchmark启动命令,MindIE Benchmark参数详细介绍请参见输入参数
    benchmark \
    --DatasetPath "数据集路径" \
    --DatasetType "gsm8k" \
    --ModelName $model_name \
    --ModelPath $model_path \
    --TestType client \
    --Http https://{ipAddress}:{port} \
    --ManagementHttp https://{managementIpAddress}:{managementPort} \
    --Concurrency 1000 \
    --RequestRate $1 \
    --MaxOutputLen 输出长度 \
    --Tokenizer True