性能/精度测试工具

目前MindIE支持AISBench和MindIE自带的MindIE Benchmark等工具进行精度和性能测试，MindIE Benchmark具体使用方法详情请参见MindIE Benchmark，MindIE Benchmark工具后续将日落，请优先使用AISBench工具，其详细使用方法请参见AISBench工具。

为方便用户进行性能/精度测试工具的迁移与评估，特此提供功能特性对比及性能测试指标对照表，详情请参见以下表1和表2。

表1 工具特性对比
特性	AISBench	MindIE Benchmark
推理模式	支持Client模式	支持Client模式和Engine模式
推理引擎	MindIE、vLLM、SGLang、TGI、Triton	MindIE、vLLM、SGLang、TGI、Triton
推理模式	支持流式推理和文本推理	支持流式推理和文本推理
数据集	支持39个开源数据集和synthetic随机数据集	支持11个开源数据集和synthetic随机数据集
发送模式	支持均匀分布和泊松分布	支持均匀分布和泊松分布
精度测试	支持，介绍链接	支持
性能测试	支持，介绍链接	支持
token推理	支持，介绍链接	支持
Multi LoRA推理	支持，介绍链接	支持
Function Call测试	支持，介绍链接	不支持
多轮对话测试	支持，介绍链接	不支持
稳态测试	支持，介绍链接	不支持
压力测试	支持，介绍链接	不支持
多任务测试	支持，介绍链接	不支持
过程可视化	支持，介绍链接	不支持
断点续测	支持，介绍链接	不支持
自定义数据集	支持，介绍链接	不支持
支持插件化扩展	支持，介绍链接	不支持

表2 性能测试结果指标对比
AISBench	MindIE Benchmark	指标含义
TTFT	FirstTokenTime	Time To First Token，首token时延说明：该指标在beam search场景下无法测量。
ITL	DecodeTime	Inter-token Latency，chunk间时延
TPOT	-	Time Per Output Token，decode token间时延，计算公式为：(E2EL - TTFT) / （OutputTokens - 1）说明：该指标在beam search场景下无法测量。
E2EL	GenerateTime	End To End Latency，请求的端到端时延
InputTokens	InputTokens	请求的输入token数量
OutputTokens	GeneratedTokens	请求的生成token数量
PrefillTokenThroughput	-	请求的prefill吞吐，计算公式为：InputTokens / TTFT
OutputTokenThroughput	-	请求的吞吐，计算公式为：OutputTokens / E2EL
Benchmark Duration	TimeElapsed	性能测试的端到端耗时
Total Requests	Total	发送总请求数
Failed Requests	Failed	失败总请求数
Successful Requests	Returned	成功总请求数
Concurrency	-	平均并发数，计算公式为：sum(E2EL) / Benchmark Duration
Max Concurrency	Concurrency	配置并发数
Request Throughput	Throughput	请求吞吐量，计算公式为：Successful Requests / Total Requests
Total Input Tokens	-	所有请求总的输入token数量
Total generated tokens	-	所有请求总的输出token数量
Input Token Throughput	InputGeneratedSpeed	本次测试的input token计算速度，计算公式为： Total Input Tokens / Benchmark Duration
Output Token Throughput	OutputGeneratedSpeed	本次测试的output token计算速度，计算公式为：Total generated tokens / Benchmark Duration
Total Token Throughput	TatalGeneratedSpeed	本次测试输入输出的总token计算速度，计算公式为：(Total Input Tokens + Total generated tokens) / Benchmark Duration

父主题： 配套工具