使用样例

限制与约束

操作步骤

本章节简单介绍如何使用Buffer Response功能。

  1. 打开MindIE Service的config.json文件。

    cd {MindIE安装目录}/latest/mindie-service/
    vi conf/config.json

  2. 在config.json配置文件中的ScheduleConfig字段下添加以下参数。

    "bufferResponseEnabled" : true,
    "prefillExpectedTime" : 1000,
    "decodeExpectedTime" : 50

  3. 执行以下命令启动服务。

    ./bin/mindieservice_daemon

  4. 本样例以MindIE Benchmark工具展示调优方式,执行如下MindIE Benchmark启动命令,MindIE Benchmark参数详细介绍请参见输入参数

    benchmark \
    --DatasetPath "数据集路径" \
    --DatasetType "gsm8k" \
    --ModelName $model_name \
    --ModelPath $model_path \
    --TestType client \
    --Http https://{ipAddress}:{port} \
    --ManagementHttp https://{managementIpAddress}:{managementPort} \
    --Concurrency 1000 \
    --RequestRate $1 \
    --MaxOutputLen 输出长度 \
    --Tokenizer True