使用样例
限制与约束
- 仅Atlas 800I A2 推理服务器支持此特性。
- Qwen2系列模型支持对接此特性。
操作步骤
本章节简单介绍如何使用Buffer Response功能。
- 打开MindIE Motor的config.json文件。
cd {MindIE安装目录}/latest/mindie-service/ vi conf/config.json
- 在config.json配置文件中的ScheduleConfig字段下添加以下参数。
"bufferResponseEnabled" : true, "prefillExpectedTime" : 1000, "decodeExpectedTime" : 50
表1 Buffer Response特性参数说明 配置项
取值类型
取值范围
配置说明
bufferResponseEnabled
bool
- true
- false
是否开启Buffer Response特性。
选填,默认值:false。
prefillExpectedTime
uint32_t
大于等于1
Prefill阶段Token生成的SLO期望时延。
选填,默认值:1500。
decodeExpectedTime
uint32_t
大于等于1
Decode阶段Token生成的SLO期望时延。
选填,默认值:50。
- 执行以下命令启动服务。
./bin/mindieservice_daemon
- 本样例以MindIE Benchmark工具展示调优方式,执行如下MindIE Benchmark启动命令,MindIE Benchmark参数详细介绍请参见输入参数。
benchmark \ --DatasetPath "数据集路径" \ --DatasetType "gsm8k" \ --ModelName $model_name \ --ModelPath $model_path \ --TestType client \ --Http https://{ipAddress}:{port} \ --ManagementHttp https://{managementIpAddress}:{managementPort} \ --Concurrency 1000 \ --RequestRate $1 \ --MaxOutputLen 输出长度 \ --Tokenizer True
父主题: Buffer Response