昇腾社区首页
中文
注册

集群场景下的Profiling

场景介绍

一个集群是由多个节点组成,每个节点都有单独的系统,通过管理界面统一管理。在集群场景执行Profiling则采集每个节点的性能数据,每个节点均生成一个PROF_XXX目录并进行预解析并将各个节点的PROF_XXX目录汇总到OBS,用户需要手动将OBS汇总的所有PORF_XXX目录拷贝到MindStudio所在的服务器进行性能数据的展示和分析。

Profiling流程

Profiling总体流程如下图所示。

图1 Profiling流程

环境搭建

  • 集群场景请用户自行搭建。
  • 根据需要在对应的节点上安装合适的CANN软件包,可参考软件包安装
  • 安装MindStudio工具,请参见MindStudio 安装指南

约束

  • 集群场景当前支持MindSpore框架下的Profiling和PyTorch Profiling。
  • 集群场景执行Profiling最大支持采集512个节点(如果每个节点配置8个Device,即最大支持4096个Device)的性能数据。

Profiling性能数据采集

完成环境准备后,集群场景可参考以下方式进行性能数据采集。

数据展示

集群场景的性能数据需要通过MindStudio IDE工具进行界面化展示。

  1. 将采集生成所有节点的PROF_XXX目录全部拷贝至MindStudio工具所在的服务器。
  2. MindStudio IDE导入集群场景性能数据方式请参见MindStudio 用户指南中的“性能分析 > Profiling数据展示 > Merge Reports”章节。。
  3. MindStudio IDE展示集群场景性能数据请参见MindStudio 用户指南中的 “性能分析 > Profiling数据展示 > Analysis Summary、Cluster Iteration Analysis和Data Preparation”章节。