环境准备
本文档以Atlas 800I A2 推理服务器和Qwen2.5-7B模型为例,让开发者快速了解通过MindIE Turbo使用vLLM进行大模型推理流程。
前提条件
物理机部署场景,需要在物理机安装NPU驱动固件以及部署Docker,执行如下步骤判断是否已安装NPU驱动固件和部署Docker。
父主题: vLLM文本生成推理快速入门
本文档以Atlas 800I A2 推理服务器和Qwen2.5-7B模型为例,让开发者快速了解通过MindIE Turbo使用vLLM进行大模型推理流程。
物理机部署场景,需要在物理机安装NPU驱动固件以及部署Docker,执行如下步骤判断是否已安装NPU驱动固件和部署Docker。