集群训练场景性能分析
场景介绍
一个集群是由多个节点组成,每个节点都有单独的系统,通过管理界面统一管理。在集群场景执行采集每个节点的性能数据,每个节点均生成一个PROF_XXX目录并进行预解析,将各个节点的PROF_XXX目录汇总到OBS。用户需要手动将OBS汇总的所有PORF_XXX目录拷贝到可以展示和分析集群数据的环境下进行展示和分析。
当前支持集群数据展示和分析的工具为:MindStudio Insight。
性能数据采集流程
性能数据采集总体流程如下图所示。
图1 性能数据采集流程

环境搭建
约束
集群场景执行性能数据采集最大支持采集128个节点(如果每个节点配置8个Device,即最大支持1024个Device)的性能数据。
性能数据采集
完成环境搭建后,集群场景可参考以下方式进行性能数据采集。
- 使用使用MindSpore框架接口采集进行性能数据采集。
- 使用Ascend PyTorch Profiler接口采集PyTorch性能数据。
- 参见《PyTorch模型迁移和训练指南》中的“迁移适配”搭建分布式训练环境,准备迁移后的分布式训练脚本。
- 参见性能分析(PyTorch训练/在线推理)修改训练脚本,并拉起分布式训练进行数据采集。
数据展示
集群场景的性能数据需要通过MindStudio Insight工具进行界面化展示,详见《MindStudio Insight 用户指南》。
父主题: 附录