昇腾社区首页
中文
注册
开发者
下载

精度测试

  • 精度测试和性能测试前,请先重开一个窗口进入容器,并参见3设置环境变量。
  • 以下精度测试以AISBench工具为例,AISBench工具的详细使用方法请参见AISBench工具
  1. 使用以下命令下载并安装AISBench工具。
    1
    2
    3
    4
    5
    git clone https://gitee.com/aisbench/benchmark.git 
    cd benchmark/ 
    pip3 install -e ./ --use-pep517
    pip3 install -r requirements/api.txt 
    pip3 install -r requirements/extra.txt
    

    pip安装方式适用于使用AISBench最新功能的场景(镜像安装MindIE方式除外)。AISBench工具已预装在MindIE镜像中,可使用以下命令查看AISBench工具在MindIE镜像中的安装路径。

    1
    pip show ais_bench_benchmark
    
  2. 准备数据集。

    以gsm8k为例,单击gsm8k数据集下载数据集,将解压后的gsm8k文件夹放置于工具根路径的ais_bench/datasets文件夹下。

  3. 配置ais_bench/benchmark/configs/models/vllm_api/vllm_api_stream_chat.py文件,示例如下所示。
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    from ais_bench.benchmark.models import VLLMCustomAPIChatStream  
    models = [     
        dict(         
            attr="service",         
            type=VLLMCustomAPIChatStream,         
            abbr='vllm-api-stream-chat',         
            path="/home/weight",                    # 指定模型序列化词表文件绝对路径,一般来说就是模型权重文件夹路径        
            model="qwen2-7b",        # 指定服务端已加载模型名称,依据实际VLLM推理服务拉取的模型名称配置(配置成空字符串会自动获取)        
            request_rate = 0,           # 请求发送频率,每1/request_rate秒发送1个请求给服务端,小于0.1则一次性发送所有请求        
            retry = 2,         
            host_ip = "127.0.0.1",      # 指定推理服务的IP        
            host_port = 1025,           # 指定推理服务的端口        
            max_out_len = 512,          # 推理服务输出的token的最大数量        
            batch_size=1,               # 请求发送的最大并发数     
            trust_remote_code=False,   
            generation_kwargs = dict(             
                temperature = 0.5,             
                top_k = 10,             
                top_p = 0.95,             
                seed = None,             
                repetition_penalty = 1.03,                                 
            ) , 
             pred_postprocessor=dict(type=extract_non_reasoning_content)   
        ) 
    ]
    
  4. 执行以下命令启动服务化精度测试。
    1
    ais_bench --models vllm_api_stream_chat --datasets demo_gsm8k_gen_4_shot_cot_chat_prompt --debug
    

    回显如下所示则表示执行成功:

    1
    2
    3
    dataset                 version  metric   mode  vllm_api_general_chat 
    ----------------------- -------- -------- ----- ---------------------- 
    demo_gsm8k              401e4c   accuracy gen                   62.50