昇腾社区首页
中文
注册
开发者
下载

性能/精度测试工具

目前MindIE支持AISBench和MindIE自带的MindIE Benchmark等工具进行精度和性能测试,MindIE Benchmark具体使用方法详情请参见MindIE Benchmark,MindIE Benchmark工具后续将日落,请优先使用AISBench工具,其详细使用方法请参见AISBench工具

为方便用户进行性能/精度测试工具的迁移与评估,特此提供功能特性对比及性能测试指标对照表,详情请参见以下表1表2

表1 工具特性对比

特性

AISBench

MindIE Benchmark

推理模式

支持Client模式

支持Client模式和Engine模式

推理引擎

MindIE、vLLM、SGLang、TGI、Triton

MindIE、vLLM、SGLang、TGI、Triton

推理模式

支持流式推理和文本推理

支持流式推理和文本推理

数据集

支持39个开源数据集和synthetic随机数据集

支持11个开源数据集和synthetic随机数据集

发送模式

支持均匀分布和泊松分布

支持均匀分布和泊松分布

精度测试

支持,介绍链接

支持

性能测试

支持,介绍链接

支持

token推理

支持,介绍链接

支持

Multi LoRA推理

支持,介绍链接

支持

Function Call测试

支持,介绍链接

不支持

多轮对话测试

支持,介绍链接

不支持

稳态测试

支持,介绍链接

不支持

压力测试

支持,介绍链接

不支持

多任务测试

支持,介绍链接

不支持

过程可视化

支持,介绍链接

不支持

断点续测

支持,介绍链接

不支持

自定义数据集

支持,介绍链接

不支持

支持插件化拓展

支持,介绍链接

不支持

表2 性能测试结果指标对比

AISBench

MindIE Benchmark

指标含义

TTFT

FirstTokenTime

Time To First Token,首token时延

说明:

该指标在beam search场景下无法测量。

ITL

DecodeTime

Inter-token Latency,chunk间时延

TPOT

-

Time Per Output Token,decode token间时延,计算公式为:(E2EL - TTFT) / (OutputTokens - 1)

说明:

该指标在beam search场景下无法测量。

E2EL

GenerateTime

Ene To End Latency,请求的端到端时延

InputTokens

InputTokens

请求的输入token数量

OutputTokens

GeneratedTokens

请求的生成token数量

PrefillTokenThroughput

-

请求的prefill吞吐,计算公式为:InputTokens / TTFT

OutputTokenThroughput

-

请求的吞吐,计算公式为:OutputTokens / E2EL

Benchmark Duration

TimeElapsed

性能测试的端到端耗时

Total Requests

Total

发送总请求数

Failed Requests

Failed

失败总请求数

Successful Requests

Returned

成功总请求数

Concurrency

-

平均并发数,计算公式为:sum(E2EL) / Benchmark Duration

Max Concurrency

Concurrency

配置并发数

Request Throughput

Throughput

请求吞吐量,计算公式为:Successful Requests

Total Input Tokens

-

所有请求总的输入token数量

Total generated tokens

-

所有请求总的输出token数量

Input Token Throughput

InputGeneratedSpeed

本次测试的input token计算速度,计算公式为: Total Input Tokens / Benchmark Duration

Output Token Throughput

OutputGeneratedSpeed

本次测试的output token计算速度,计算公式为:Total generated tokens / Benchmark Duration

Total Token Throughput

TatalGeneratedSpeed

本次测试输入输出的总token计算速度,计算公式为:(Total Input Tokens + Total generated tokens) / Benchmark Duration