Cluster Iteration Analysis

Cluster Iteration Analysis训练集群场景迭代性能分析数据汇总,包含汇总页信息及每轮迭代的详细数据。

MindStudio不支持集群场景的数据采集,可通过Import Result导入已采集的PROF_XXX的父目录来展示集群场景性能数据。

汇总页信息界面

首次进入Cluster Analysis页面时,展示汇总页信息,柱状图最多显示10组数据。

将汇总页信息界面分为区域1和2,详细字段解释请参见表1表2

当Type选择Iteration ID时,展示Step Trace和Data Parallelism Statistics/Model Parallelism Statistics/Pipeline Parallelism Statistics(三种并行模式仅展示其中一种),如图1/图2/图3所示。

当Type选择Rank ID时仅展示Step Trace,如图4所示。

图1 Data Parallelism Statistics
图2 Model Parallelism Statistics
图3 Pipeline Parallelism Statistics
图4 Rank ID
  • 单击汇总页信息界面中Step Trace某个柱状图时,弹出该Iteration ID/Rank ID的迭代详细数据界面
  • 柱状图横纵坐标说明如下:
    • 当Type选择Iteration ID时,横坐标表示从左至右根据所有集群节点的迭代轨迹默认按总耗时降序排列,并行度分析按计算时间降序排列,单击界面右侧表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示耗时。
    • 当Type选择Rank ID时,横坐标表示从左至右根据当前集群节点所有的迭代轨迹默认按总耗时降序排列,单击界面右侧表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示迭代耗时。
表1 区域1字段说明

字段

说明

Type

数据展示方式:

  • Iteration ID(迭代ID):Type选择Iteration ID并单击“Apply”时,下方柱状图显示当前迭代中所有集群节点的迭代数据。
  • Rank ID(节点ID):Type栏选择Rank ID并单击“Apply”时,下方柱状图显示当前集群节点所有迭代数据。

Iteration ID

迭代ID,查看指定迭代的所有设备迭代数据。

Rank ID

节点ID,查看指定节点的所有迭代数据。

Model ID

模型ID,查看指定迭代/节点的指定模型迭代数据。

Apply

数据导出按钮。当选定Iteration ID/Rank ID和Model ID并单击该按钮时,导出该节点的Cluster Iteration Analysis。

Step Trace(迭代轨迹数据)

Bar Chart

柱状图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以并排柱状图展示。

Stack Chart

堆叠图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以堆叠柱状图展示。

Top

可通过配置Top参数值选择展示迭代总耗时最长的TopN条数据。取值范围1~200,默认值为10。

FP to BP Time(us)

FP/BP计算时间(BP End - FP Start)。单位为us。

Iteration Refresh(us)

迭代更新拖尾(Iteration End - BP End)。单位为us。

Iteration Interval(us)

迭代间隙。单位为us。

Total Time(us)

迭代总耗时。单位为us。

表2 区域2字段说明

字段

说明

Rank ID

节点ID。

Top

可通过配置Top参数值选择展示集合通信总耗时最长的TopN条数据。取值范围1~200,默认值为10。

Data Parallelism Statistics(数据并行模式)

Computation Time(us)

计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。

Pure Communication Time(us)

纯通信时间。只有通信算子执行、计算算子不执行的时间段。单位为us。

Communication Time(us)

通信时间。单位为us。

Communication Interval(us)

通信间隙时间。单位为us。

Model Parallelism Statistics(模型并行模式)

Computation Time(us)

计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。

Pure Communication Time(us)

纯通信时间。单位为us。只有通信算子执行、计算算子不执行的时间段。

Pipeline Parallelism Statistics(流水线并行模式)

Computation Time(us)

计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。

Pure Communication Time (Only Receive Op Included)(us)

纯通信时间(仅包含Receive算子)。只有点对点(Receive)通信算子执行、计算算子不执行的时间段。单位为us。

Pure Communication Time (Receive Op Not Included)(us)

纯通信时间(不包含Receive算子)。只有除Receive通信算子外的其它通信算子执行、计算算子不执行的时间段。单位为us。

Stage Time(us)

Stage时间。单位为us。各个stage的耗时时长,查看该数据可以查看哪个stage的耗时最长。

迭代详细数据界面

单击汇总页信息界面中Step Trace某个柱状图时,弹出该Iteration ID/Rank ID的详细性能数据信息窗口,包括区域1(Timeline)、区域2(Bottleneck/Operator Statistics/Computing Workload)。如图5所示。
图5 迭代详细数据界面
图6 Operator Statistics
图7 Computing Workload

区域1

Timeline详细介绍请参见Timeline视图

区域2