Cluster Iteration Analysis训练集群场景迭代性能分析数据汇总，包含汇总页信息及每轮迭代的详细数据。

MindStudio不支持集群场景的数据采集，可通过Import Result导入已采集的PROF_XXX的父目录来展示集群场景性能数据。

汇总页信息界面

首次进入Cluster Analysis页面时，展示汇总页信息，柱状图最多显示10组数据。

将汇总页信息界面分为区域1和2，详细字段解释请参见表1和表2。

当Type选择Iteration ID时，展示Step Trace和Data Parallelism Statistics/Model Parallelism Statistics/Pipeline Parallelism Statistics（三种并行模式仅展示其中一种），如图1/图2/图3所示。

当Type选择Rank ID时仅展示Step Trace，如图4所示。

图1 Data Parallelism Statistics
点击放大

图2 Model Parallelism Statistics
点击放大

图3 Pipeline Parallelism Statistics
点击放大

图4 Rank ID
点击放大

单击汇总页信息界面中Step Trace某个柱状图时，弹出该Iteration ID/Rank ID的迭代详细数据界面。
柱状图横纵坐标说明如下：
- 当Type选择Iteration ID时，横坐标表示从左至右根据所有集群节点的迭代轨迹默认按总耗时降序排列，并行度分析按计算时间降序排列，单击界面右侧表格上的列名时，则柱状图按照表格该列的数值排序，纵坐标表示耗时。
- 当Type选择Rank ID时，横坐标表示从左至右根据当前集群节点所有的迭代轨迹默认按总耗时降序排列，单击界面右侧表格上的列名时，则柱状图按照表格该列的数值排序，纵坐标表示迭代耗时。

表1 区域1字段说明
字段	说明
Type	数据展示方式： Iteration ID（迭代ID）：Type选择Iteration ID并单击“Apply”时，下方柱状图显示当前迭代中所有集群节点的迭代数据。 Rank ID（节点ID）：Type栏选择Rank ID并单击“Apply”时，下方柱状图显示当前集群节点所有迭代数据。
Iteration ID	迭代ID，查看指定迭代的所有设备迭代数据。
Rank ID	节点ID，查看指定节点的所有迭代数据。
Model ID	模型ID，查看指定迭代/节点的指定模型迭代数据。
Apply	数据导出按钮。当选定Iteration ID/Rank ID和Model ID并单击该按钮时，导出该节点的Cluster Iteration Analysis。
Step Trace（迭代轨迹数据）
Bar Chart	柱状图展示迭代耗时数据。当选择此参数时，下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以并排柱状图展示。
Stack Chart	堆叠图展示迭代耗时数据。当选择此参数时，下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以堆叠柱状图展示。
Top	可通过配置Top参数值选择展示迭代总耗时最长的TopN条数据。取值范围1~200，默认值为10。
FP to BP Time(us)	FP/BP计算时间（BP End - FP Start）。单位为us。
Iteration Refresh(us)	迭代更新拖尾（Iteration End - BP End）。单位为us。
Iteration Interval(us)	迭代间隙。单位为us。
Total Time(us)	迭代总耗时。单位为us。

表2 区域2字段说明
字段	说明
Rank ID	节点ID。
Top	可通过配置Top参数值选择展示集合通信总耗时最长的TopN条数据。取值范围1~200，默认值为10。
Data Parallelism Statistics（数据并行模式）
Computation Time(us)	计算时间。单位为us。算子执行的时间总和，用于判断是否有慢卡存在。
Pure Communication Time(us)	纯通信时间。只有通信算子执行、计算算子不执行的时间段。单位为us。
Communication Time(us)	通信时间。单位为us。
Communication Interval(us)	通信间隙时间。单位为us。
Model Parallelism Statistics（模型并行模式）
Computation Time(us)	计算时间。单位为us。算子执行的时间总和，用于判断是否有慢卡存在。
Pure Communication Time(us)	纯通信时间。单位为us。只有通信算子执行、计算算子不执行的时间段。
Pipeline Parallelism Statistics（流水线并行模式）
Computation Time(us)	计算时间。单位为us。算子执行的时间总和，用于判断是否有慢卡存在。
Pure Communication Time (Only Receive Op Included)(us)	纯通信时间（仅包含Receive算子）。只有点对点（Receive）通信算子执行、计算算子不执行的时间段。单位为us。
Pure Communication Time (Receive Op Not Included)(us)	纯通信时间（不包含Receive算子）。只有除Receive通信算子外的其它通信算子执行、计算算子不执行的时间段。单位为us。
Stage Time(us)	Stage时间。单位为us。各个stage的耗时时长，查看该数据可以查看哪个stage的耗时最长。

迭代详细数据界面

单击汇总页信息界面中Step Trace某个柱状图时，弹出该Iteration ID/Rank ID的详细性能数据信息窗口，包括区域1（Timeline）、区域2（Bottleneck/Operator Statistics/Computing Workload）。如图5所示。

图5 迭代详细数据界面
点击放大

图6 Operator Statistics
点击放大

图7 Computing Workload
点击放大

区域1：

Timeline详细介绍请参见Timeline视图。

区域2：

Bottleneck：瓶颈问题及优化建议。
瓶颈问题分为六大类“Computation”、“Memory”、“Operator Schedule”、“Operator Processing”、“Operator Metrics”和“Operator Parallelism”，其中每类包含若干子问题，单击对应的“see more”后在右侧查看相关的算子信息，再次单击“see more”后查看全量的算子信息。

Operator Statistics：算子统计，如图6 Operator Statistics所示。

左侧饼图与右侧表格数据联动，单击某列表头时，饼图按照该列实际数据显示各数据所占比例。详细字段解释请参见表3。

表3 Operator Statistics字段说明
字段	说明
Model Name	模型名称。如果Model Name值为空，则可能为获取的数据中该值为空。
OP Type	算子类型。
Core Type	Core类型。
Count	算子调用次数。
Total Time(us)	算子调用总耗时，单位us。
Min Time(us)	算子调用最小耗时，单位us。
Avg Time(us)	算子调用平均耗时，单位us。
Max Time(us)	算子调用最大耗时，单位us。
Total Time Ratio(%)	该类算子在对应模型中的耗时占比。

Computing Workload：算子计算量，如图7 Computing Workload所示。

饼图与右侧表格无联动，根据右侧表格中的OP Type列各算子类型所占比例绘制，且仅当性能数据采集为Task-based模式数据时才能展示。详细字段解释请参见表4。

表4 Computing Workload字段说明
字段	说明
FLOPs(M)	代表每秒所执行的浮点运算次数，FLOPs（floating-point operations per second）是计算机运算速度的单位。
FLOPS(G/s)	代表每秒浮点操作次数的峰值，FLOPS（floating-point operations per second, peak）是指计算机的峰值运算速度。
FLOPS AVG(bytes)	代表每秒浮点操作次数的平均值，FLOPS AVG（floating-point operations per second, average）是指计算机运算速度的平均值。
右侧表格中的字段展示与AI Core采集类型有关，各字段含义请参见AI Core Metrics视图。