昇腾社区首页
中文
注册

加载大模型时耗时过长

问题描述

加载1300B大小的模型时耗时过长(约3个小时)。其中“B”代表“Billon”,即十亿。

原因分析

未使用异步加载。

解决方法

通过设置环境变量OMP_NUM_THREADS进行模型加载优化,OMP_NUM_THREADS用于设置OpenMP(Open Multi-Processing)并行编程框架的线程数量,设置后加载1300B大小的模型只要10分钟左右。

export OMP_NUM_THREADS=1

此外,使用下面命令启动NPU显存碎片收集。

export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export NPU_MEMORY_FRACTION=0.96