使用样例
限制与约束
- 仅Atlas 800I A2 推理服务器支持此特性。
- Qwen2系列模型支持对接此特性。
操作步骤
本章节简单介绍如何使用Buffer Response功能。
- 打开MindIE Service的config.json文件。
cd {MindIE安装目录}/latest/mindie-service/ vi conf/config.json
- 在config.json配置文件中的ScheduleConfig字段下添加以下参数。
"bufferResponseEnabled" : true, "prefillExpectedTime" : 1000, "decodeExpectedTime" : 50
- 执行以下命令启动服务。
./bin/mindieservice_daemon
- 本样例以MindIE Benchmark工具展示调优方式,执行如下MindIE Benchmark启动命令,MindIE Benchmark参数详细介绍请参见输入参数。
benchmark \ --DatasetPath "数据集路径" \ --DatasetType "gsm8k" \ --ModelName $model_name \ --ModelPath $model_path \ --TestType client \ --Http https://{ipAddress}:{port} \ --ManagementHttp https://{managementIpAddress}:{managementPort} \ --Concurrency 1000 \ --RequestRate $1 \ --MaxOutputLen 输出长度 \ --Tokenizer True
父主题: Buffer Response