昇腾社区首页
中文
注册

迭代轨迹数据说明

请参见导出timeline数据获取迭代轨迹数据step_trace_{device_id}_{model_id}_{iter_id}.json,其中{device_id}表示设备ID,{model_id}表示某轮迭代的模型ID号,{iter_id}表示某轮迭代的ID号。

在Chrome浏览器中输入“chrome://tracing”地址,将json文件拖到空白处打开,通过键盘上的快捷键(w:放大 s:缩小 a:左移 d:右移)进行查看。

step_trace_{device_id}_{model_id}_{iter_id}.json文件内容格式示例如下:

关键字段说明参见表1

表1 字段说明

字段名

字段含义

Title

选择某个组件的接口名称。例如本例选择的为model_id121的FP_BP Time 1接口。

Start

显示界面中时间轴上的时刻点,chrome trace自动对齐。单位为ms。

Wall Duration

表示当前接口调用耗时。单位为ms。

Iteration ID

迭代ID。

FP Start

FP开始时间。

Iteration End

迭代最后一次梯度聚合完成时间。

Iteration Time(ns)

迭代时长(本轮迭代Iteration End - 本轮迭代Iteration End)。因为计算第一轮迭代时长时没有上一轮迭代的Iteration End数据,所以第一轮迭代时长计算公式使用:本轮Iteration End – 本轮FP Start时间。单位为ns。

BP End

BP结束时间。

FP_BP Time(ns)

FP/BP计算时间(BP End - FP Start)。单位为ns。

Grad_refresh Bound

梯度更新拖尾(Iteration End - BP End)。

Data_aug Bound

数据增强拖尾(本轮迭代FP Start - 上一个迭代Iteration End)。因为计算第一轮数据增强拖尾时没有上一轮迭代的Iteration End数据,因此第一轮迭代的数据增强拖尾数据值默认为N/A。

Reduce

集合通信时间,可能存在多组集合通信时间(ph:B 表示某一组的开始时间,ph:E表示该组的结束时间);如果非多P环境,则没有Reduce数据。