性能/精度测试工具
目前MindIE支持AISBench和MindIE自带的MindIE Benchmark等工具进行精度和性能测试,MindIE Benchmark具体使用方法详情请参见MindIE Benchmark,MindIE Benchmark工具后续将日落,请优先使用AISBench工具,其详细使用方法请参见AISBench工具。
为方便用户进行性能/精度测试工具的迁移与评估,特此提供功能特性对比及性能测试指标对照表,详情请参见以下表1和表2。
特性 |
AISBench |
MindIE Benchmark |
|---|---|---|
推理模式 |
支持Client模式 |
支持Client模式和Engine模式 |
推理引擎 |
MindIE、vLLM、SGLang、TGI、Triton |
|
推理模式 |
支持流式推理和文本推理 |
|
数据集 |
支持11个开源数据集和synthetic随机数据集 |
|
发送模式 |
支持均匀分布和泊松分布 |
|
精度测试 |
支持 |
|
性能测试 |
支持 |
|
token推理 |
支持 |
|
Multi LoRA推理 |
支持 |
|
Function Call测试 |
不支持 |
|
多轮对话测试 |
不支持 |
|
稳态测试 |
不支持 |
|
压力测试 |
不支持 |
|
多任务测试 |
不支持 |
|
过程可视化 |
不支持 |
|
断点续测 |
不支持 |
|
自定义数据集 |
不支持 |
|
支持插件化拓展 |
不支持 |
AISBench |
MindIE Benchmark |
指标含义 |
|---|---|---|
TTFT |
FirstTokenTime |
Time To First Token,首token时延 说明:
该指标在beam search场景下无法测量。 |
ITL |
DecodeTime |
Inter-token Latency,chunk间时延 |
TPOT |
- |
Time Per Output Token,decode token间时延,计算公式为:(E2EL - TTFT) / (OutputTokens - 1) 说明:
该指标在beam search场景下无法测量。 |
E2EL |
GenerateTime |
Ene To End Latency,请求的端到端时延 |
InputTokens |
InputTokens |
请求的输入token数量 |
OutputTokens |
GeneratedTokens |
请求的生成token数量 |
PrefillTokenThroughput |
- |
请求的prefill吞吐,计算公式为:InputTokens / TTFT |
OutputTokenThroughput |
- |
请求的吞吐,计算公式为:OutputTokens / E2EL |
Benchmark Duration |
TimeElapsed |
性能测试的端到端耗时 |
Total Requests |
Total |
发送总请求数 |
Failed Requests |
Failed |
失败总请求数 |
Successful Requests |
Returned |
成功总请求数 |
Concurrency |
- |
平均并发数,计算公式为:sum(E2EL) / Benchmark Duration |
Max Concurrency |
Concurrency |
配置并发数 |
Request Throughput |
Throughput |
请求吞吐量,计算公式为:Successful Requests |
Total Input Tokens |
- |
所有请求总的输入token数量 |
Total generated tokens |
- |
所有请求总的输出token数量 |
Input Token Throughput |
InputGeneratedSpeed |
本次测试的input token计算速度,计算公式为: Total Input Tokens / Benchmark Duration |
Output Token Throughput |
OutputGeneratedSpeed |
本次测试的output token计算速度,计算公式为:Total generated tokens / Benchmark Duration |
Total Token Throughput |
TatalGeneratedSpeed |
本次测试输入输出的总token计算速度,计算公式为:(Total Input Tokens + Total generated tokens) / Benchmark Duration |