使用样例

限制与约束

仅Atlas 800I A2 推理服务器支持此特性。
Qwen2系列模型支持对接此特性。

操作步骤

本章节简单介绍如何使用Buffer Response功能。

打开MindIE Motor的config.json文件。

cd {MindIE安装目录}/latest/mindie-service/
vi conf/config.json

在config.json配置文件中的ScheduleConfig字段下添加以下参数。

"bufferResponseEnabled" : true,
"prefillExpectedTime" : 1000,
"decodeExpectedTime" : 50

表1 Buffer Response特性参数说明
配置项	取值类型	取值范围	配置说明
bufferResponseEnabled	bool	true false	是否开启Buffer Response特性。选填，默认值：false。
prefillExpectedTime	uint32_t	大于等于1	Prefill阶段Token生成的SLO期望时延。选填，默认值：1500。
decodeExpectedTime	uint32_t	大于等于1	Decode阶段Token生成的SLO期望时延。选填，默认值：50。

执行以下命令启动服务。
```
./bin/mindieservice_daemon
```

本样例以MindIE Benchmark工具展示调优方式，执行如下MindIE Benchmark启动命令，MindIE Benchmark参数详细介绍请参见输入参数。

benchmark \
--DatasetPath "数据集路径" \
--DatasetType "gsm8k" \
--ModelName $model_name \
--ModelPath $model_path \
--TestType client \
--Http https://{ipAddress}:{port} \
--ManagementHttp https://{managementIpAddress}:{managementPort} \
--Concurrency 1000 \
--RequestRate $1 \
--MaxOutputLen 输出长度 \
--Tokenizer True

父主题： Buffer Response