下载
中文
注册
Qwen2-VL-7B-Instruct

language: - en pipeline_tag: text-generation tags: - pretrained license: other hardwares: - NPU frameworks: - PyTorch library_name: openmind

Qwen2-VL-7B-Instruct

Qwen2-VL-7B-Instruct 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM),可以以图像、文本、视频作为输入,并以文本作为输出

准备模型

目前提供的MindIE镜像预置了 Qwen2-VL-7B-Instruct 模型推理脚本,无需使用本仓库自带的atb_models中的代码

加载镜像

前往昇腾社区/开发资源下载适配本模型的镜像包:1.0.0-800I-A2-py311-openeuler24.03-lts

完成之后,请使用docker images命令确认查找具体镜像名称与标签。

硬件要求

部署Qwen2-VL-7B-Instruct模型至少需要1台Atlas 800I A2 32G服务器

新建容器

自行修改端口等参数,启动样例

[object Object]

进入容器

[object Object]

安装Python依赖

[object Object]

纯模型推理

  • 修改/usr/local/Ascend/atb-models/examples/models/qwen2_vl/run_pa.sh脚本
[object Object]
  • 运行脚本
[object Object]
  • 性能测试样例(Atlas 800I A2 32G)

    • 设置max_batch_size=4
    • 设置max_input_length=8192
    • 设置max_output_length=80
    • 设置input_image="/XXX/1902x1080.jpg"
    • 运行run_pa.sh脚本
    • 输出结果为,吞吐即为 320 / 7.44 = 43 tokens/s
    • 更详细的性能数据,如首token时延,参考终端performance输出
  • 性能测试样例(Atlas 800I A2 64G)

    • 设置max_batch_size=32
    • 设置max_input_length=8192
    • 设置max_output_length=80
    • 设置input_image="/XXX/1902x1080.jpg"
    • 运行run_pa.sh脚本
    • 输出结果为,吞吐即为 2560 / 25.912 = 98.79 tokens/s
    • 更详细的性能数据,如首token时延,参考终端performance输出

服务化推理

  • 打开配置文件
[object Object]
  • 更改配置文件
[object Object]
  • 设置运行多卡环境变量
[object Object]
  • 拉起服务化
[object Object]
  • 容器内新端口测试 VLLM接口
[object Object]
  • 容器内新端口测试 OpenAI 接口
[object Object]
使用模型资源和服务前,请您仔细阅读并理解透彻 《昇腾深度学习模型许可协议 3.0》