迭代轨迹数据说明
请参见导出timeline数据获取迭代轨迹数据step_trace_{device_id}_{model_id}_{iter_id}.json,其中{device_id}表示设备ID,{model_id}表示某轮迭代的模型ID号,{iter_id}表示某轮迭代的ID号。
在Chrome浏览器中输入“chrome://tracing”地址,将json文件拖到空白处打开,通过键盘上的快捷键(w:放大 s:缩小 a:左移 d:右移)进行查看。
step_trace_{device_id}_{model_id}_{iter_id}.json文件内容格式示例如下:
关键字段说明参见表1:
字段名 |
字段含义 |
---|---|
Title |
选择某个组件的接口名称。例如本例选择的为model_id121的FP_BP Time 1接口。 |
Start |
显示界面中时间轴上的时刻点,chrome trace自动对齐。单位为ms。 |
Wall Duration |
表示当前接口调用耗时。单位为ms。 |
Iteration ID |
迭代ID。 |
FP Start |
FP开始时间。 |
Iteration End |
迭代最后一次梯度聚合完成时间。 |
Iteration Time(ns) |
迭代时长(本轮迭代Iteration End - 本轮迭代Iteration End)。因为计算第一轮迭代时长时没有上一轮迭代的Iteration End数据,所以第一轮迭代时长计算公式使用:本轮Iteration End – 本轮FP Start时间。单位为ns。 |
BP End |
BP结束时间。 |
FP_BP Time(ns) |
FP/BP计算时间(BP End - FP Start)。单位为ns。 |
Grad_refresh Bound |
梯度更新拖尾(Iteration End - BP End)。 |
Data_aug Bound |
数据增强拖尾(本轮迭代FP Start - 上一个迭代Iteration End)。因为计算第一轮数据增强拖尾时没有上一轮迭代的Iteration End数据,因此第一轮迭代的数据增强拖尾数据值默认为N/A。 |
Reduce |
集合通信时间,可能存在多组集合通信时间(ph:B 表示某一组的开始时间,ph:E表示该组的结束时间);如果非多P环境,则没有Reduce数据。 |