Cluster Iteration Analysis训练集群场景迭代性能分析数据汇总,包含汇总页信息及每轮迭代的详细数据。
首次进入Cluster Analysis页面时,展示汇总页信息,柱状图最多显示10组数据。
将汇总页信息界面分为区域1和2,详细字段解释请参见表1和表2。
当Type选择Iteration ID时,展示Step Trace和Data Parallelism Statistics/Model Parallelism Statistics/Pipeline Parallelism Statistics(三种并行模式仅展示其中一种),如图1/图2/图3所示。
当Type选择Rank ID时仅展示Step Trace,如图4所示。
字段 |
说明 |
---|---|
Type |
数据展示方式:
|
Iteration ID |
迭代ID,查看指定迭代的所有设备迭代数据。 |
Rank ID |
节点ID,查看指定节点的所有迭代数据。 |
Model ID |
模型ID,查看指定迭代/节点的指定模型迭代数据。 |
Apply |
数据导出按钮。当选定Iteration ID/Rank ID和Model ID并单击该按钮时,导出该节点的Cluster Iteration Analysis。 |
Step Trace(迭代轨迹数据) |
|
Bar Chart |
柱状图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以并排柱状图展示。 |
Stack Chart |
堆叠图展示迭代耗时数据。当选择此参数时,下方柱状图中的FP to BP Time、Iteration Refresh和Iteration Interval耗时数据以堆叠柱状图展示。 |
Top |
可通过配置Top参数值选择展示迭代总耗时最长的TopN条数据。取值范围1~200,默认值为10。 |
FP to BP Time(us) |
FP/BP计算时间(BP End - FP Start)。单位为us。 |
Iteration Refresh(us) |
迭代更新拖尾(Iteration End - BP End)。单位为us。 |
Iteration Interval(us) |
迭代间隙。单位为us。 |
Total Time(us) |
迭代总耗时。单位为us。 |
字段 |
说明 |
---|---|
Rank ID |
节点ID。 |
Top |
可通过配置Top参数值选择展示集合通信总耗时最长的TopN条数据。取值范围1~200,默认值为10。 |
Data Parallelism Statistics(数据并行模式) |
|
Computation Time(us) |
计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。 |
Pure Communication Time(us) |
纯通信时间。只有通信算子执行、计算算子不执行的时间段。单位为us。 |
Communication Time(us) |
通信时间。单位为us。 |
Communication Interval(us) |
通信间隙时间。单位为us。 |
Model Parallelism Statistics(模型并行模式) |
|
Computation Time(us) |
计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。 |
Pure Communication Time(us) |
纯通信时间。单位为us。只有通信算子执行、计算算子不执行的时间段。 |
Pipeline Parallelism Statistics(流水线并行模式) |
|
Computation Time(us) |
计算时间。单位为us。算子执行的时间总和,用于判断是否有慢卡存在。 |
Pure Communication Time (Only Receive Op Included)(us) |
纯通信时间(仅包含Receive算子)。只有点对点(Receive)通信算子执行、计算算子不执行的时间段。单位为us。 |
Pure Communication Time (Receive Op Not Included)(us) |
纯通信时间(不包含Receive算子)。只有除Receive通信算子外的其它通信算子执行、计算算子不执行的时间段。单位为us。 |
Stage Time(us) |
Stage时间。单位为us。各个stage的耗时时长,查看该数据可以查看哪个stage的耗时最长。 |
区域1:
Timeline详细介绍请参见Timeline视图。
区域2:
瓶颈问题分为六大类“Computation”、“Memory”、“Operator Schedule”、“Operator Processing”、“Operator Metrics”和“Operator Parallelism”,其中每类包含若干子问题,单击对应的“see more”后在右侧查看相关的算子信息,再次单击“see more”后查看全量的算子信息。
饼图与右侧表格无联动,根据右侧表格中的OP Type列各算子类型所占比例绘制,且仅当性能数据采集为Task-based模式数据时才能展示。详细字段解释请参见表4。
字段 |
说明 |
---|---|
FLOPs(M) |
代表每秒所执行的浮点运算次数,FLOPs(floating-point operations per second)是计算机运算速度的单位。 |
FLOPS(G/s) |
代表每秒浮点操作次数的峰值,FLOPS(floating-point operations per second, peak)是指计算机的峰值运算速度。 |
FLOPS AVG(bytes) |
代表每秒浮点操作次数的平均值,FLOPS AVG(floating-point operations per second, average)是指计算机运算速度的平均值。 |
右侧表格中的字段展示与AI Core采集类型有关,各字段含义请参见AI Core Metrics视图。 |