环境准备

本文档以Atlas 800I A2 推理服务器和Qwen2.5-7B模型为例，让开发者快速了解通过MindIE Turbo使用vLLM进行大模型推理流程。

物理机部署场景，需要在物理机安装NPU驱动固件以及部署Docker，执行如下步骤判断是否已安装NPU驱动固件和部署Docker。

执行以下命令查看NPU驱动固件是否安装。若出现类似如图1所示，说明已安装。否则请参见表1进行安装。

npu-smi info

图1 回显信息

表1 Atlas 800I A2 推理产品
产品型号	参考文档
Atlas 800I A2	《Atlas A2 中心推理和训练硬件 24.1.0 NPU驱动和固件安装指南》中的“物理机安装与卸载”章节

执行以下命令查看Docker是否已安装并启动。

docker ps

回显以下信息表示Docker已安装并启动。

CONTAINER ID        IMAGE        COMMAND         CREATED        STATUS         PORTS           NAMES

请先下载权重，这里以Qwen2.5-7B为例，下载链接：https://huggingface.co/Qwen/Qwen2.5-7B，将权重文件上传至服务器任意目录（如/home/weight）。

参见《MindIE Turbo开发指南》中的“安装MindIE Turbo（容器化）”章节，通过Dockerfile文件构建MindIE Turbo镜像（镜像文件以mindie-turbo:800I-A2-py311-Openeuler24.03-aarch64为例）。

该镜像包括模型运行所需的基础环境，包括：CANN、FrameworkPTAdapter、MindIE Turbo、vLLM与vLLM-ascend，可实现模型快速上手推理。

父主题： vLLM文本生成推理快速入门