性能/精度测试工具
目前MindIE支持AISBench工具进行精度和性能测试,其详细使用方法请参见AISBench工具。支持的功能特性及性能测试指标详情请参见以下表1和表2。
特性 |
AISBench |
|---|---|
推理模式 |
支持Client模式 |
推理引擎 |
|
推理模式 |
|
数据集 |
|
发送模式 |
|
精度测试 |
|
性能测试 |
|
token推理 |
|
Multi LoRA推理 |
|
Function Call测试 |
|
多轮对话测试 |
|
稳态测试 |
|
压力测试 |
|
多任务测试 |
|
过程可视化 |
|
断点续测 |
|
自定义数据集 |
|
支持插件化扩展 |
AISBench |
指标含义 |
|---|---|
TTFT |
Time To First Token,首token时延 说明:
该指标在beam search场景下无法测量。 |
ITL |
Inter-token Latency,chunk间时延 |
TPOT |
Time Per Output Token,decode token间时延,计算公式为:(E2EL - TTFT) / (OutputTokens - 1) 说明:
该指标在beam search场景下无法测量。 |
E2EL |
End To End Latency,请求的端到端时延 |
InputTokens |
请求的输入token数量 |
OutputTokens |
请求的生成token数量 |
PrefillTokenThroughput |
请求的prefill吞吐,计算公式为:InputTokens / TTFT |
OutputTokenThroughput |
请求的吞吐,计算公式为:OutputTokens / E2EL |
Benchmark Duration |
性能测试的端到端耗时 |
Total Requests |
发送总请求数 |
Failed Requests |
失败总请求数 |
Successful Requests |
成功总请求数 |
Concurrency |
平均并发数,计算公式为:sum(E2EL) / Benchmark Duration |
Max Concurrency |
配置并发数 |
Request Throughput |
请求吞吐量,计算公式为:Successful Requests / Total Requests |
Total Input Tokens |
所有请求总的输入token数量 |
Total generated tokens |
所有请求总的输出token数量 |
Input Token Throughput |
本次测试的input token计算速度,计算公式为: Total Input Tokens / Benchmark Duration |
Output Token Throughput |
本次测试的output token计算速度,计算公式为:Total generated tokens / Benchmark Duration |
Total Token Throughput |
本次测试输入输出的总token计算速度,计算公式为:(Total Input Tokens + Total generated tokens) / Benchmark Duration |