昇腾社区首页
中文
注册
开发者
下载

运行Qwen2.5-VL系列模型失败并报错

问题描述

运行Qwen2.5-VL系列模型失败并出现类似以下报错提示:

  • 报错提示一:
    You are using a model of type qwen2_5_vl to instantiate a model of type. This is not supported for all configurations of models and can yield errors.
  • 报错提示二:
    [ERROR] TBE Subprocess[task_distribute] raise error[], main process disappeared!

原因分析

模型配置等不支持,通常是因为安装的依赖不正确,需要安装对应的依赖文件。

解决方案

  • 报错提示一处理方式:

    根据每个模型所需依赖安装对应的requirements.txt 文件。

    • 所有模型需要安装的通用依赖文件所在路径为:
      /usr/local/Ascend/atb-models/requirements/requirements.txt
    • 不同的模型对应的依赖安装文件在models路径下,比如qwen2-vl 模型:
      /usr/local/Ascend/atb-models/requirements/models/requirements_qwen2_vl.txt

    安装命令如下所示:

    pip install -r /usr/local/Ascend/atb-models/requirements/models/requirements_qwen2_vl.txt
  • 报错提示二处理方式:
    1. 单击链接查看该模型硬件环境是否支持。
    2. 使用以下命令排查驱动版本是否配套,驱动最低版本23.0.7才能运行,建议安装驱动版本为24.1.RC2及以上。
      npu-smi info
    3. 请检查环境变量是否已配置并生效。
    4. 检查系统空闲内存是否充足。

      使用以下命令查看可用内存的大小,需保证大于权重大小/机器数

      free -h

      根据经验,尽量保证free_mem >= (权重大小/机器数) * 1.3

      每次运行完模型,请检查一下机器的host侧内存占用,避免内存不足导致模型运行失败。

    5. 导入以下环境变量:
      export HCCL_DETERMINISTIC=false
      export HCCL_OP_EXPANSION_MODE="AIV"
      export NPU_MEMORY_FRACTION=0.96
      export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
    6. 排查多机服务化参数配置是否一致。
    7. 重启服务器,并重新启动服务。
    • 硬件环境、版本配套,驱动、镜像等版本更新到最新版能有效避免很多类似此类报错问题。
    • 该报错更多处理方式请参见链接