精度测试

目前MindIE支持AISBench和MindIE自带的MindIE Benchmark等工具进行精度测试，示例如下所示。

MindIE Benchmark工具将于2026年日落，请优先使用AISBench工具，其详细使用方法请参见AISBench工具。

AISBench

使用以下命令下载并安装AISBench工具。
1 2 3 4 5
git clone https://gitee.com/aisbench/benchmark.git cd benchmark/ pip3 install -e ./ --use-pep517 pip3 install -r requirements/api.txt pip3 install -r requirements/extra.txt
pip安装方式适用于使用AISBench最新功能的场景（镜像安装MindIE方式除外）。AISBench工具已预装在MindIE镜像中，可使用以下命令查看AISBench工具在MindIE镜像中的安装路径。
1
pip show ais_bench_benchmark
准备数据集。
以gsm8k为例，单击gsm8k数据集下载数据集，将解压后的gsm8k文件夹放置于工具根路径的ais_bench/datasets文件夹下。

配置ais_bench/benchmark/configs/models/vllm_api/vllm_api_stream_chat.py文件，示例如下所示。

from ais_bench.benchmark.models import VLLMCustomAPIChatStream
models = [
    dict(
        attr="service",
        type=VLLMCustomAPIChatStream,
        abbr='vllm-api-stream-chat',
        path="",                    # 指定模型序列化词表文件绝对路径，即模型权重文件夹路径        
        model="DeepSeek-R1",        # 指定服务端已加载模型名称，依据实际VLLM推理服务拉取的模型名称配置（配置成空字符串会自动获取）        
        request_rate = 0,           # 请求发送频率，每1/request_rate秒发送1个请求给服务端，小于0.1则一次性发送所有请求        
        retry = 2,
        host_ip = "localhost",      # 指定推理服务的IP        
        host_port = 8080,           # 指定推理服务的端口        
        max_out_len = 512,          # 推理服务输出的token的最大数量        
        batch_size=1,               # 请求发送的最大并发数        
        generation_kwargs = dict(
            temperature = 0.5,
            top_k = 10,
            top_p = 0.95,
            seed = None,
            repetition_penalty = 1.03,
        )     
    ) 
]

执行以下命令启动服务化精度测试。

ais_bench --models vllm_api_stream_chat --datasets demo_gsm8k_gen_4_shot_cot_chat_prompt --debug

回显如下所示则表示执行成功：

dataset                 version  metric   mode  vllm_api_general_chat 
----------------------- -------- -------- ----- ---------------------- 
demo_gsm8k              401e4c   accuracy gen                   62.50

MindIE Benchmark

精度测试样例如下所示，参数详细解释请参见输入参数。

benchmark \
--DatasetPath "/{数据集路径}/GSM8K" \
--DatasetType "gsm8k" \
--ModelName "llama3-70b" \
--ModelPath "/{模型路径}/llama3-70b" \
--TestType client \
--Http https://{ipAddress}:{port} \
--ManagementHttp https://{managementIpAddress}:{managementPort} \
--Concurrency 16 \
--MaxOutputLen 512 \
--TestAccuracy True

其中--TestAccuracy True参数是开启精度测试的开关，输出结果中accuracy字段为精度测试结果。

父主题： 快速入门