下载
中文
注册
加载大模型时耗时过长

加载大模型时耗时过长

2025/03/24

82

暂无评分
我要评分

问题信息

问题来源产品大类关键字
官方模型推理加载大模型、耗时过长

问题现象描述

加载1300B大小的模型时耗时过长(约3个小时)。其中“B“代表“Billon”,即十亿。

原因分析

未使用异步加载。

解决措施

通过设置环境变量OMP_NUM_THREADS进行模型加载优化,OMP_NUM_THREADS用于设置OpenMP(Open Multi-Processing)并行编程框架的线程数量,设置后加载1300B大小的模型只要10分钟左右。

export OMP_NUM_THREADS=1

此外,使用下面命令启动NPU显存碎片收集。

export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export NPU_MEMORY_FRACTION=0.96

本页内容