性能样例如下所示,参数详细解释请参见输入参数。
benchmark \ --DatasetPath "/{数据集路径}/GSM8K" \ --DatasetType "gsm8k" \ --ModelName "llama3-70b" \ --ModelPath "/{模型路径}/llama3-70b" \ --TestType client \ --Http https://{ipAddress}:{port} \ --ManagementHttp https://{managementIpAddress}:{managementPort} \ --Concurrency 1000 \ --MaxOutputLen 512 \
结果如下图所示:
性能测试结果主要关注FirstTokenTime、DecodeTime等token生成时延的指标和lpct(latency per complete token,Prefill阶段平均每个token时延)、Throughput等测试吞吐量的指标。