使用说明
支持界面缩放与预览
- Timeline View界面支持缩小、放大和左右移动等功能,具体操作如下所示:
- 单击Timeline树状图或者图形化窗格任意位置,可以使用键盘中的W(放大)、A(左移)、S(缩小)、D(右移)键进行操作,支持放大的最大精度为1ns。
- 将鼠标放置在Timeline树状图或者图形化窗格任意位置,可以使用键盘中的CTRL键加鼠标滚轮实现缩放操作。
- 在图形化窗格中,使用键盘中的ALT键加鼠标左键可以使选中区域实现局部放大。
- 单击界面左上方工具栏中的
(放大)和
(缩小)实现缩放。
- 单击界面左上方工具栏中的
可以一键恢复图形化窗格显示全部Timeline。
- Timeline View界面支持预览:
设置和查看标记
- 区域标记
左键双击任一标记,可以设置该标记对的属性,支持修改标记对名称,颜色以及删除该标记对,如图3所示。
- 单点标记
左键双击标记,可以设置该标记的属性,支持修改标记对名称,颜色以及删除该标记。
- 标记管理
支持集群场景展示
Ascend Insight支持导入和展示集群场景Timeline数据,无需手动合并多个单卡数据。支持训练场景下的多级多卡和推理场景下多卡等场景,Ascend Insight能够自动识别导入文件夹下所有的trace_view.json和msprof*.json文件。以16卡为例进行展示,如图6所示。
在集群场景中,为方便快速定位某卡的数据所对应的文件目录,可以将鼠标悬停在卡的序号上,则会显示该卡数据所对应的文件目录。例如将鼠标悬停在“0”上,则会在后方弹出示该卡所对应的文件目录,如图7所示。
支持单卡时间对齐
对于多机多卡场景,由于机器上时间不准,可能造成多卡间Timeline相对位置不准确,Ascend Insight支持单卡维度的时间校准,如图8所示,通过设置Offset,可以将单卡的Timeline左右移动,从而达到时间“校准”的目的。Offset 的单位为ns,负值为右移,正值为左移。
在Offset的弹窗中单击(Align to start)按钮,会在Timestamp Offset(ns)输入框中显示该卡中最左侧的线程数据与时间轴初始位置(00:00.000)的偏移量,然后按回车键,Timeline界面将会把该线程数据与时间轴初始位置对齐。
如图9所示,0卡中Ascend Hardware层级的Stream 0线程最左侧的数据与时间轴初始位置的偏移量为58459800ns。
支持分卡/专项层显示和对比
- 当导入多级多卡数据时,展示的Timeline信息较多,为更好的帮助用户对比分析,Ascend Insight支持按卡和按专项层进行过滤展示。
- 按卡显示:以只显示1卡为例,单击界面左上方
,选择“Card Filter”,然后单击后方输入框,在下拉框选择“1”,即可显示1卡的Timeline信息,如图10所示。
- 按专项层显示:以只显示每张卡的Overlap Analysis层为例,单击界面左上方工具栏
,选择“Units Filter”,然后单击后方输入框,在下拉框选择“Overlap Analysis”,即可显示Overlap Analysis层的Timeline信息,如图11所示。
- 按卡显示:以只显示1卡为例,单击界面左上方
- Ascend Insight支持固定并置顶某些三层级(线程)的Timeline信息,更方便的同其他卡同类层级进行对比。
例:单击0、1、2卡中的某三层级名后方的
,则可置顶,再次单击
即可取消置顶,如图12所示。
统计信息
Ascend Insight支持算子统计信息和单个算子详情信息查看。
算子搜索功能
Ascend Insight在Timeline View界面支持算子搜索。
单击界面左上方工具栏中的,在弹出输入框中输入需要搜索的算子,然后按回车键,则会匹配对应的算子。
- 当“Card”层级和进程层级处于折叠状态时,搜索结果只有匹配算子总数,如图15所示,搜索到与名称为“aten”相关的算子总数为43683。
- 当线程层级处于预览状态或者展开状态时,搜索结果不仅有匹配算子总数,在界面中也会高亮显示匹配的算子,如图16所示。
单击搜索框后方的切换按钮,可以查看上一个或者下一个匹配的算子,也可以在输入框后方输入具体的数字搜索其对应的算子,该算子将会被选中并显示在界面的中间,如图17所示。
算子连线功能
- Ascend Insight支持算子单条连线功能,选择具有连线功能的算子,然后单击Slice Detail视图中“Outgoing flow”后面的超链接,再单击该算子所在泳道任意位置,如图18所示。
单击Slice Detail视图中“Outgoing flow”后面的超链接,则在Slice Detail视图显示两个算子的连线类别以及在图形化窗格起始时间等信息,如图19所示。
连线成功,如图19所示。
- Ascend Insight支持全量连线的功能,单击界面左上方工具栏中的
,在弹框中选择某一(几)个连线类型,则在图形化窗格展示对应类型的所有连线,如图20所示。
应用层算子到NPU算子之间通过连线方式展示下发到执行的对应关系如下所示:
- HostToDevice:CANN层Node(算子)到AscendHardware的NPU算子的下发执行关系(Host到Device)。
- HostToDevice:CANN层Node(算子)到HCCL通信算子的下发执行关系(Host到Device)。
- async_npu:应用层算子到Ascend Hardware的NPU算子的下发执行关系。
- async_task_queue:应用层Enqueue到Dequeue的入队列到出队列对应关系,仅PyTorch场景。
- fwdbwd:前向API到反向API,仅PyTorch场景。
- 各层的对应关系是否呈现与对应采集场景是否采集该数据有关,请以实际情况为准。
- 各层之间的连线与各层是否展开呈联动关系,如果选择了某个连线类型,对应层没有展开,则不会显示该类型的连线。
支持频率展示
Ascend Insight支持频率展示,当AICORE芯片由于温度升高触发保护机制,以降低频率的方式进入低功耗模式。当算子执行效率下降时,需要快速反馈出由于AICORE降频导致性能下降问题。
如果性能数据中输出有变频数据(AI Core Freq),数据将保存在msprof_*.json文件;导入数据后,在Timeline树状图增加AI Core Freq层级以及在图形化窗格中展示对应的频率数据,如图21所示。

Atlas A2 训练系列产品导出的性能数据才支持此功能。
支持算子仿真图
Ascend Insight支持导入算子仿真bin文件,并在Timeline界面展示算子仿真图,获取算子仿真bin文件请参见算子仿真调优章节,文件为:visualize_data.bin。
请参见性能数据导入章节导入visualize_data.bin文件,然后在Timeline界面查看算子仿真图,如图22所示,字段解释如表1所示。
当选中区域三(图形化窗格)中某个指令时,区域四(数据窗格)将展示该指令的详细信息。
字段 |
说明 |
---|---|
Title |
指令名称。 |
Start |
指令起始时间。 |
Wall Duration |
指令总耗时。 |
Self Time |
指令总耗时(不包括子指令)。 |

- 只支持导入单个二进制bin文件,不支持以文件夹方式导入。
- 算子仿真图的每个色块代表一个指令,颜色无特殊含义,与指令名字相关。
- 支持导入的bin文件规格最大为8GB。