专家系统通过对集群场景大模型并行方式分析,找到当前模型运行耗时最短的并行方式。包括对data_parallel_num, model_parallel_num, pipeline_stage_num, micro_batch_num的修改设置建议以及理论上使用建议的并行方式后的模型运行时间。
优化建议:
Modify the following parameters in the TransformerOpParallelConfig interface
修改训练脚本中TransformerOpParallelConfig接口的如下参数值。
pipeline并行会产生bubble,设备总会出现等待,为了提高设备利用率,对数据进一步切分成micro_batch_num份。
Theoretically, the time consumption and memory usage after parallel config are optimized
理论上使用建议的并行方式后的模型运行时间。