性能/精度测试工具

目前MindIE支持AISBench工具进行精度和性能测试，其详细使用方法请参见AISBench工具。支持的功能特性及性能测试指标详情请参见以下表1和表2。

表1 工具特性
特性	AISBench
推理模式	支持Client模式
推理引擎	MindIE、vLLM、SGLang、TGI、Triton
推理模式	支持流式推理和文本推理
数据集	支持39个开源数据集和synthetic随机数据集
发送模式	支持均匀分布和泊松分布
精度测试	支持，介绍链接
性能测试	支持，介绍链接
token推理	支持，介绍链接
Multi LoRA推理	支持，介绍链接
Function Call测试	支持，介绍链接
多轮对话测试	支持，介绍链接
稳态测试	支持，介绍链接
压力测试	支持，介绍链接
多任务测试	支持，介绍链接
过程可视化	支持，介绍链接
断点续测	支持，介绍链接
自定义数据集	支持，介绍链接
支持插件化扩展	支持，介绍链接

表2 性能测试结果指标
AISBench	指标含义
TTFT	Time To First Token，首token时延说明：该指标在beam search场景下无法测量。
ITL	Inter-token Latency，chunk间时延
TPOT	Time Per Output Token，decode token间时延，计算公式为：(E2EL - TTFT) / （OutputTokens - 1）说明：该指标在beam search场景下无法测量。
E2EL	End To End Latency，请求的端到端时延
InputTokens	请求的输入token数量
OutputTokens	请求的生成token数量
PrefillTokenThroughput	请求的prefill吞吐，计算公式为：InputTokens / TTFT
OutputTokenThroughput	请求的吞吐，计算公式为：OutputTokens / E2EL
Benchmark Duration	性能测试的端到端耗时
Total Requests	发送总请求数
Failed Requests	失败总请求数
Successful Requests	成功总请求数
Concurrency	平均并发数，计算公式为：sum(E2EL) / Benchmark Duration
Max Concurrency	配置并发数
Request Throughput	请求吞吐量，计算公式为：Successful Requests / Total Requests
Total Input Tokens	所有请求总的输入token数量
Total generated tokens	所有请求总的输出token数量
Input Token Throughput	本次测试的input token计算速度，计算公式为： Total Input Tokens / Benchmark Duration
Output Token Throughput	本次测试的output token计算速度，计算公式为：Total generated tokens / Benchmark Duration
Total Token Throughput	本次测试输入输出的总token计算速度，计算公式为：(Total Input Tokens + Total generated tokens) / Benchmark Duration

父主题： 配套工具