排查并行框架性能配置。以FSDP为例,FSDP中limit_all_gathers参数默认为True,FastChat部署场景修改配置为False,导致内存上涨。limit_all_gathers设置为True可以防止过早地收集模型参数,降低并行的all_gather数量,从而提高all_gather输出内存的复用率,减轻内存峰值压力。
使用FSDP(Fully sharded data parallel)框架的网络。
可以在PyTorch源码FSDP初始化逻辑中增加配置打印确认。