language: - en pipeline_tag: text-generation tags: - pretrained license: other hardwares: - NPU frameworks: - PyTorch library_name: openmind
Qwen2-VL-7B-Instruct
Qwen2-VL-7B-Instruct 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM),可以以图像、文本、视频作为输入,并以文本作为输出
准备模型
目前提供的MindIE镜像预置了 Qwen2-VL-7B-Instruct 模型推理脚本,无需使用本仓库自带的atb_models中的代码
加载镜像
前往昇腾社区/开发资源下载适配本模型的镜像包:1.0.0-800I-A2-py311-openeuler24.03-lts
完成之后,请使用docker images
命令确认查找具体镜像名称与标签。
硬件要求
部署Qwen2-VL-7B-Instruct模型至少需要1台Atlas 800I A2 32G服务器
新建容器
自行修改端口等参数,启动样例
[object Object]
进入容器
[object Object]
安装Python依赖
[object Object]
纯模型推理
- 修改
/usr/local/Ascend/atb-models/examples/models/qwen2_vl/run_pa.sh
脚本
[object Object]
- 运行脚本
[object Object]
性能测试样例(Atlas 800I A2 32G)
- 设置
max_batch_size=4
- 设置
max_input_length=8192
- 设置
max_output_length=80
- 设置
input_image="/XXX/1902x1080.jpg"
- 运行
run_pa.sh
脚本 - 输出结果为,吞吐即为 320 / 7.44 = 43 tokens/s
- 更详细的性能数据,如首token时延,参考终端performance输出
- 设置
性能测试样例(Atlas 800I A2 64G)
- 设置
max_batch_size=32
- 设置
max_input_length=8192
- 设置
max_output_length=80
- 设置
input_image="/XXX/1902x1080.jpg"
- 运行
run_pa.sh
脚本 - 输出结果为,吞吐即为 2560 / 25.912 = 98.79 tokens/s
- 更详细的性能数据,如首token时延,参考终端performance输出
- 设置
服务化推理
- 打开配置文件
[object Object]
- 更改配置文件
[object Object]
- 设置运行多卡环境变量
[object Object]
- 拉起服务化
[object Object]
- 容器内新端口测试 VLLM接口
[object Object]
- 容器内新端口测试 OpenAI 接口
[object Object]