昇腾社区首页
中文
注册
开发者
下载

性能/精度测试工具

目前MindIE支持AISBench工具进行精度和性能测试,其详细使用方法请参见AISBench工具。支持的功能特性及性能测试指标详情请参见以下表1表2

表1 工具特性

特性

AISBench

推理模式

支持Client模式

推理引擎

MindIE、vLLM、SGLang、TGI、Triton

推理模式

支持流式推理和文本推理

数据集

支持39个开源数据集和synthetic随机数据集

发送模式

支持均匀分布和泊松分布

精度测试

支持,介绍链接

性能测试

支持,介绍链接

token推理

支持,介绍链接

Multi LoRA推理

支持,介绍链接

Function Call测试

支持,介绍链接

多轮对话测试

支持,介绍链接

稳态测试

支持,介绍链接

压力测试

支持,介绍链接

多任务测试

支持,介绍链接

过程可视化

支持,介绍链接

断点续测

支持,介绍链接

自定义数据集

支持,介绍链接

支持插件化扩展

支持,介绍链接

表2 性能测试结果指标

AISBench

指标含义

TTFT

Time To First Token,首token时延

说明:

该指标在beam search场景下无法测量。

ITL

Inter-token Latency,chunk间时延

TPOT

Time Per Output Token,decode token间时延,计算公式为:(E2EL - TTFT) / (OutputTokens - 1)

说明:

该指标在beam search场景下无法测量。

E2EL

End To End Latency,请求的端到端时延

InputTokens

请求的输入token数量

OutputTokens

请求的生成token数量

PrefillTokenThroughput

请求的prefill吞吐,计算公式为:InputTokens / TTFT

OutputTokenThroughput

请求的吞吐,计算公式为:OutputTokens / E2EL

Benchmark Duration

性能测试的端到端耗时

Total Requests

发送总请求数

Failed Requests

失败总请求数

Successful Requests

成功总请求数

Concurrency

平均并发数,计算公式为:sum(E2EL) / Benchmark Duration

Max Concurrency

配置并发数

Request Throughput

请求吞吐量,计算公式为:Successful Requests / Total Requests

Total Input Tokens

所有请求总的输入token数量

Total generated tokens

所有请求总的输出token数量

Input Token Throughput

本次测试的input token计算速度,计算公式为: Total Input Tokens / Benchmark Duration

Output Token Throughput

本次测试的output token计算速度,计算公式为:Total generated tokens / Benchmark Duration

Total Token Throughput

本次测试输入输出的总token计算速度,计算公式为:(Total Input Tokens + Total generated tokens) / Benchmark Duration