加载大模型时耗时过长

加载1300B大小的模型时耗时过长（约3个小时）。其中“B”代表“Billion”，即十亿。

未使用异步加载。

通过设置环境变量OMP_NUM_THREADS进行模型加载优化，OMP_NUM_THREADS用于设置OpenMP（Open Multi-Processing）并行编程框架的线程数量，设置后加载1300B大小的模型只要10分钟左右。

export OMP_NUM_THREADS=1

此外，使用下面命令启动NPU显存碎片收集。

export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True
export NPU_MEMORY_FRACTION=0.96

父主题： FAQ