运行Qwen2.5-VL系列模型失败并报错

问题描述

运行Qwen2.5-VL系列模型失败并出现类似以下报错提示：

报错提示一：

You are using a model of type qwen2_5_vl to instantiate a model of type. This is not supported for all configurations of models and can yield errors.

报错提示二：

[ERROR] TBE Subprocess[task_distribute] raise error[], main process disappeared!

原因分析

模型配置等不支持，通常是因为安装的依赖不正确，需要安装对应的依赖文件。

解决方案

报错提示一处理方式：
根据每个模型所需依赖安装对应的requirements.txt 文件。
- 所有模型需要安装的通用依赖文件所在路径为：
```
/usr/local/Ascend/atb-models/requirements/requirements.txt
```
- 不同的模型对应的依赖安装文件在models路径下，比如qwen2-vl 模型：
```
/usr/local/Ascend/atb-models/requirements/models/requirements_qwen2_vl.txt
```
安装命令如下所示：
```
pip install -r /usr/local/Ascend/atb-models/requirements/models/requirements_qwen2_vl.txt
```
报错提示二处理方式：
1. 单击链接查看该模型硬件环境是否支持。
2. 使用以下命令排查驱动版本是否配套，驱动最低版本23.0.7才能运行，建议安装驱动版本为24.1.RC2及以上。
```
npu-smi info
```
3. 请检查环境变量是否已配置并生效。
4. 检查系统空闲内存是否充足。
  使用以下命令查看可用内存的大小，需保证大于权重大小/机器数。
```
free -h
```
  根据经验，尽量保证free_mem >= (权重大小/机器数) * 1.3。
  
  每次运行完模型，请检查一下机器的host侧内存占用，避免内存不足导致模型运行失败。
5. 导入以下环境变量：
```
export HCCL_DETERMINISTIC=false
export HCCL_OP_EXPANSION_MODE="AIV"
export NPU_MEMORY_FRACTION=0.96
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
```
6. 排查多机服务化参数配置是否一致。
7. 重启服务器，并重新启动服务。
- 硬件环境、版本配套，驱动、镜像等版本更新到最新版能有效避免很多类似此类报错问题。
- 该报错更多处理方式请参见链接。

父主题： FAQ