性能测试

性能样例如下所示,参数详细解释请参见输入参数

benchmark \
--DatasetPath "/{数据集路径}/GSM8K" \
--DatasetType "gsm8k" \
--ModelName "llama3-70b" \
--ModelPath "/{模型路径}/llama3-70b" \
--TestType client \
--Http https://{ipAddress}:{port} \
--ManagementHttp https://{managementIpAddress}:{managementPort} \
--Concurrency 1000 \
--MaxOutputLen 512 \

结果如下图所示:

性能测试结果主要关注FirstTokenTime、DecodeTime等token生成时延的指标和lpct(latency per complete token,Prefill阶段平均每个token时延)、Throughput等测试吞吐量的指标。