msproftx host与device的timeline汇总数据合并为msproftx的timeline汇总数据msprof*.json。
msprof*.json在Chrome浏览器中展示如下。
图1 timeline汇总展示(Atlas 200/300/500 推理产品)(Atlas 推理系列产品(Ascend 310P处理器))(Atlas 训练系列产品)(Atlas A2训练系列产品)
如图1所示,timeline汇总数据主要展示如下区域:
- 区域1:msproftx数据,即上层应用数据,包含上层应用算子的耗时信息。
- 区域2:task_queue数据。仅PyTorch训练场景E2E Profiling采集后展示。
- 区域3:CANN层数据,主要包含AscendCL、Runtime组件以及Node(算子)的耗时数据。
- 区域4:底层NPU数据,主要包含Task Scheduler组件耗时数据和迭代轨迹数据以及其他昇腾AI处理器系统数据。
- 区域5:展示timeline中各算子、接口的详细信息。单击各个timeline时展示。
- call_stack字段仅PyTorch训练场景E2E Profiling采集后展示。
- 图中的箭头连线为PyTorch训练场景E2E Profiling采集后展示,表示上层应用、AscendCL API以及Task Scheduler(底层NPU算子)之间的关联关系,详细分析方法请参见查看算子下发方向,其中HCCL算子不支持展示上层应用到AscendCL API接口的映射关系。
各区域数据详细描述可参见host目录数据和device目录数据的数据说明。