加载大模型时耗时过长
问题描述
加载1300B大小的模型时耗时过长(约3个小时)。其中“B”代表“Billon”,即十亿。
原因分析
未使用异步加载。
解决方法
通过设置环境变量OMP_NUM_THREADS进行模型加载优化,OMP_NUM_THREADS用于设置OpenMP(Open Multi-Processing)并行编程框架的线程数量,设置后加载1300B大小的模型只要10分钟左右。
export OMP_NUM_THREADS=1
此外,使用下面命令启动NPU显存碎片收集。
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export NPU_MEMORY_FRACTION=0.96
父主题: FAQ