集群场景下的Profiling
场景介绍
一个集群是由多个节点组成,每个节点都有单独的系统,通过管理界面统一管理。在集群场景执行Profiling则采集每个节点的性能数据,每个节点均生成一个PROF_XXX目录并进行预解析并将各个节点的PROF_XXX目录汇总到OBS,用户需要手动将OBS汇总的所有PORF_XXX目录拷贝到MindStudio所在的服务器进行性能数据的展示和分析。
Profiling流程
Profiling总体流程如下图所示。
图1 Profiling流程


环境搭建
- 集群场景请用户自行搭建。
- 根据需要在对应的节点上安装合适的CANN软件包,可参考软件包安装。
- 安装MindStudio工具,请参见《MindStudio 安装指南》。
约束
- 集群场景当前支持MindSpore框架下的Profiling和PyTorch Profiling。
- 集群场景执行Profiling最大支持采集512个节点(如果每个节点配置8个Device,即最大支持4096个Device)的性能数据。
Profiling性能数据采集
完成环境准备后,集群场景可参考以下方式进行性能数据采集。
- 使用MindSpore框架方式进行性能数据采集。
- 使用PyTorch Profiling。
- 参见《PyTorch网络模型迁移和训练指南》中的“模型迁移与训练 > 模型迁移”搭建分布式训练环境,准备迁移后的分布式训练脚本。
- 参见PyTorch Profiling修改训练脚本,并拉起分布式训练进行数据采集(PyTorch Profiling的使用,各场景均相同)。
- 参见数据解析与导出进行采集数据的解析与导出。
数据展示
集群场景的性能数据需要通过MindStudio IDE工具进行界面化展示。
父主题: 高级功能