Cluster Iteration Analysis
Cluster Iteration Analysis训练集群场景迭代性能分析数据汇总,包含汇总页信息及每轮迭代的详细数据。
汇总页信息界面
首次进入Cluster Analysis页面时,展示汇总页信息,柱状图最多显示10组数据。
将汇总页信息界面分为区域1和2,详细字段解释请参见表1和表2。
当Type选择Iteration ID时,展示Step Trace和Data Parallelism Statistics/Model Parallelism Statistics/Pipeline Parallelism Statistics(三种并行模式仅展示其中一种),如图1/图2/图3所示。
当Type选择Rank ID时仅展示Step Trace,如图4所示。

- 单击汇总页信息界面中Step Trace某个柱状图时,弹出该Iteration ID/Rank ID的迭代详细数据界面。
- 柱状图横纵坐标说明如下:
- 当Type选择Iteration ID时,横坐标表示从左至右根据所有集群节点的迭代轨迹默认按总耗时降序排列,并行度分析按计算时间降序排列,单击界面右侧表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示耗时。
- 当Type选择Rank ID时,横坐标表示从左至右根据当前集群节点所有的迭代轨迹默认按总耗时降序排列,单击界面右侧表格上的列名时,则柱状图按照表格该列的数值排序,纵坐标表示迭代耗时。
字段 |
说明 |
---|---|
Type |
数据展示方式:
|
Iteration ID |
迭代ID,查看指定迭代的所有设备迭代数据。 |
Rank ID |
节点ID,查看指定节点的所有迭代数据。 |
Model ID |
模型ID,查看指定迭代/节点的指定模型迭代数据。 |
Apply |
数据导出按钮。当选定Iteration ID/Rank ID和Model ID并单击该按钮时,导出该节点的Cluster Iteration Analysis。 |
Step Trace(迭代轨迹数据) |
|
Bar Chart |
柱状图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以并排柱状图展示。 |
Stack Chart |
堆叠图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以堆叠柱状图展示。 |
Top |
可通过配置Top参数值选择展示迭代总耗时最长的TopN条数据。取值范围1~200,默认值为10。 |
FP to BP Time(us) |
FP/BP计算时间(BP End - FP Start)。单位为us。 |
Iteration Refresh(us) |
迭代更新拖尾(Iteration End - BP End)。单位为us。 |
Iteration Interval(us) |
迭代间隙。单位为us。 |
Total Time(us) |
迭代总耗时。单位为us。 |
字段 |
说明 |
---|---|
Rank ID |
节点ID。 |
Top |
可通过配置Top参数值选择展示集合通信总耗时最长的TopN条数据。取值范围1~200,默认值为10。 |
Data Parallelism Statistics(数据并行模式) |
|
Computation Time(us) |
计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。 |
Pure Communication Time(us) |
纯通信时间。只有通信算子执行、计算算子不执行的时间段。单位为us。 |
Communication Time(us) |
通信时间。单位为us。 |
Communication Interval(us) |
通信间隙时间。单位为us。 |
Model Parallelism Statistics(模型并行模式) |
|
Computation Time(us) |
计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。 |
Pure Communication Time(us) |
纯通信时间。单位为us。只有通信算子执行、计算算子不执行的时间段。 |
Pipeline Parallelism Statistics(流水线并行模式) |
|
Computation Time(us) |
计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。 |
Pure Communication Time (Only Receive Op Included)(us) |
纯通信时间(仅包含Receive算子)。只有点对点(Receive)通信算子执行、计算算子不执行的时间段。单位为us。 |
Pure Communication Time (Receive Op Not Included)(us) |
纯通信时间(不包含Receive算子)。只有除Receive通信算子外的其它通信算子执行、计算算子不执行的时间段。单位为us。 |
Stage Time(us) |
Stage时间。单位为us。各个stage的耗时时长,查看该数据可以查看哪个stage的耗时最长。 |
迭代详细数据界面
区域1:
Timeline详细介绍请参见Timeline视图。
区域2:
- Bottleneck:瓶颈问题及优化建议。
瓶颈问题分为六大类“Computation”、“Memory”、“Operator Schedule”、“Operator Processing”、“Operator Metrics”和“Operator Parallelism”,其中每类包含若干子问题,单击对应的“see more”后在右侧查看相关的算子信息,再次单击“see more”后查看全量的算子信息。
- Operator Statistics:算子统计,如图6 Operator Statistics所示。
左侧饼图与右侧表格数据联动,单击某列表头时,饼图按照该列实际数据显示各数据所占比例。详细字段解释请参见表3。
- Computing Workload:算子计算量,如图7 Computing Workload所示 。
饼图与右侧表格无联动,根据右侧表格中的OP Type列各算子类型所占比例绘制,且仅当性能数据采集为Task-based模式数据时才能展示。详细字段解释请参见表4。
表4 Computing Workload字段说明 字段
说明
FLOPs(M)
代表每秒所执行的浮点运算次数,FLOPs(floating-point operations per second)是计算机运算速度的单位。
FLOPS(G/s)
代表每秒浮点操作次数的峰值,FLOPS(floating-point operations per second, peak)是指计算机的峰值运算速度。
FLOPS AVG(bytes)
代表每秒浮点操作次数的平均值,FLOPS AVG(floating-point operations per second, average)是指计算机运算速度的平均值。
右侧表格中的字段展示与AI Core采集类型有关,各字段含义请参见AI Core Metrics视图。