运行Qwen2.5-VL系列模型失败并报错
问题描述
运行Qwen2.5-VL系列模型失败并出现类似以下报错提示:
- 报错提示一:
You are using a model of type qwen2_5_vl to instantiate a model of type. This is not supported for all configurations of models and can yield errors.
- 报错提示二:
[ERROR] TBE Subprocess[task_distribute] raise error[], main process disappeared!
原因分析
模型配置等不支持,通常是因为安装的依赖不正确,需要安装对应的依赖文件。
解决方案
- 报错提示一处理方式:
根据每个模型所需依赖安装对应的requirements.txt 文件。
- 所有模型需要安装的通用依赖文件所在路径为:
/usr/local/Ascend/atb-models/requirements/requirements.txt
- 不同的模型对应的依赖安装文件在models路径下,比如qwen2-vl 模型:
/usr/local/Ascend/atb-models/requirements/models/requirements_qwen2_vl.txt
安装命令如下所示:
pip install -r /usr/local/Ascend/atb-models/requirements/models/requirements_qwen2_vl.txt
- 所有模型需要安装的通用依赖文件所在路径为:
- 报错提示二处理方式:
- 单击链接查看该模型硬件环境是否支持。
- 使用以下命令排查驱动版本是否配套,驱动最低版本23.0.7才能运行,建议安装驱动版本为24.1.RC2及以上。
npu-smi info
- 请检查环境变量是否已配置并生效。
- 检查系统空闲内存是否充足。
使用以下命令查看可用内存的大小,需保证大于权重大小/机器数。
free -h
根据经验,尽量保证free_mem >= (权重大小/机器数) * 1.3。
每次运行完模型,请检查一下机器的host侧内存占用,避免内存不足导致模型运行失败。
- 导入以下环境变量:
export HCCL_DETERMINISTIC=false export HCCL_OP_EXPANSION_MODE="AIV" export NPU_MEMORY_FRACTION=0.96 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
- 排查多机服务化参数配置是否一致。
- 重启服务器,并重新启动服务。
父主题: FAQ