精度测试

精度测试和性能测试前，请先重开一个窗口进入容器，并参见3设置环境变量。
以下精度测试以AISBench工具为例，AISBench工具的详细使用方法请参见AISBench工具。

使用以下命令下载并安装AISBench工具。
1 2 3 4 5
git clone https://gitee.com/aisbench/benchmark.git cd benchmark/ pip3 install -e ./ --use-pep517 pip3 install -r requirements/api.txt pip3 install -r requirements/extra.txt
pip安装方式适用于使用AISBench最新功能的场景（镜像安装MindIE方式除外）。AISBench工具已预装在MindIE镜像中，可使用以下命令查看AISBench工具在MindIE镜像中的安装路径。
1
pip show ais_bench_benchmark
准备数据集。
以gsm8k为例，单击gsm8k数据集下载数据集，将解压后的gsm8k文件夹放置于工具根路径的ais_bench/datasets文件夹下。

配置ais_bench/benchmark/configs/models/vllm_api/vllm_api_stream_chat.py文件，示例如下所示。

from ais_bench.benchmark.models import VLLMCustomAPIChatStream  
models = [     
    dict(         
        attr="service",         
        type=VLLMCustomAPIChatStream,         
        abbr='vllm-api-stream-chat',         
        path="/home/weight",                    # 指定模型序列化词表文件绝对路径，一般来说就是模型权重文件夹路径        
        model="qwen2-7b",        # 指定服务端已加载模型名称，依据实际VLLM推理服务拉取的模型名称配置（配置成空字符串会自动获取）        
        request_rate = 0,           # 请求发送频率，每1/request_rate秒发送1个请求给服务端，小于0.1则一次性发送所有请求        
        retry = 2,         
        host_ip = "127.0.0.1",      # 指定推理服务的IP        
        host_port = 1025,           # 指定推理服务的端口        
        max_out_len = 512,          # 推理服务输出的token的最大数量        
        batch_size=1,               # 请求发送的最大并发数     
        trust_remote_code=False,   
        generation_kwargs = dict(             
            temperature = 0.5,             
            top_k = 10,             
            top_p = 0.95,             
            seed = None,             
            repetition_penalty = 1.03,                                 
        ) , 
         pred_postprocessor=dict(type=extract_non_reasoning_content)   
    ) 
]

执行以下命令启动服务化精度测试。

ais_bench --models vllm_api_stream_chat --datasets demo_gsm8k_gen_4_shot_cot_chat_prompt --debug

回显如下所示则表示执行成功：

dataset                 version  metric   mode  vllm_api_general_chat 
----------------------- -------- -------- ----- ---------------------- 
demo_gsm8k              401e4c   accuracy gen                   62.50

父主题： MindIE文本生成推理快速入门