精度测试

精度测试和性能测试前，请先重开一个窗口中进入容器，并参见前提条件设置环境变量。
以下精度测试以lm-eval工具通过离线数据测试vLLM在线服务为例，也可以根据实际情况使用其他工具，如开源的精度工具OpenCompass等，更多精度工具请参考vllm-ascend。

安装lm-eval及其相关依赖。
```
pip install tenacity datasets lm-eval
```

以GSM8K数据集为例，执行如下命令下载GSM8K数据集，数据集默认下载保存路径为“/root/.cache/huggingface/datasets”。

export HF_ENDPOINT=https://hf-mirror.com
lm_eval  --model vllm --model_args pretrained={模型路径}/Qwen2.5-7B-Instruct,max_model_len=4096,block_size=4,tensor_parallel_size=1 --tasks gsm8k  --batch_size 8

修改“lm_eval/tasks/gsm8k/gsm8k.yaml”文件，请参考链接。

执行如下命令启动服务：

python -m vllm.entrypoints.openai.api_server --model=/{模型路径}/Qwen2.5-7B-Instruct --enforce-eager -tp 4 --port 8000 --block-size=128

精度测试样例如下所示：

lm_eval --model local-completions  --model_args "model=/{模型路径}/Qwen2.5-7B-Instruct,base_url=http://127.0.0.1:8000/v1/completions,tokenized_requests=False, max_tokens=256"   --tasks gsm8k   --output_path ./

精度测试结果如下所示：

|Tasks|Version|     Filter     |n-shot|  Metric   |   |Value |   |Stderr|
|-----|------:|----------------|-----:|-----------|---|-----:|---|-----:|
|gsm8k|      3|flexible-extract|     5|exact_match|↑  |0.2798|±  |0.0124|
|     |       |strict-match    |     5|exact_match|↑  |0.2259|±  |0.0115|

父主题： vLLM文本生成推理快速入门