简介
概述
Ascend Insight是一款主要针对大模型集群场景的调优可视化工具。针对大模型场景下性能数据量大、内存无法读取及可视化界面渲染时间长等问题,Ascend Insight工具通过边读取边渲染和数据库进行加载的方式,解决了这些问题并提供全景交互分析的能力。
Ascend Insight提供了性能数据的多种呈现形式,包括Timeline视图、通信分析、计算耗时等的可视化呈现,以便用户分析潜在的性能瓶颈,并指导如何采取措施消除或减少这些瓶颈。
优势
- Ascend Insight支持在Timeline查看集群场景下Profiling导出的数据,并以单卡为维度进行展示,且可以自动遍历输入路径下所有的trace_view.json文件(PyTorch 场景)或msprof*.json文件(TensorFlow 场景和离线推理场景),无需手动合并文件,操作简单。
- Ascend Insight借助于数据库支持超大性能数据处理,可以支持20GB以上的集群性能文件分析,并且能够支持大模型场景下的性能调优。
场景
- 算子调优:Ascend Insight提供AI Core指令流水图、函数热力图等功能,帮助算子开发者分析性能优化点。 
      表1 功能说明 功能页面 介绍 备注 Timeline View 以时序图方式为用户提供全流程在线推理/训练过程中的运行情况,并按照调度流程来呈现整体的运行状况,支持集群Timeline展示、查看算子详情、搜索算子等功能。 - Compute 展示算子指令热点图,支持查看算子源码与指令集的映射关系和耗时情况。 仅在导入算子指令热点bin文件时存在此页面。 
- 系统调优:Ascend Insight提供时序图、显存、算子耗时、通信瓶颈分析等功能,帮助开发者快速定位模型性能瓶颈。 
      表2 功能说明 功能页面 介绍 场景说明 Timeline View 以时序图方式为用户提供全流程在线推理/训练过程中的运行情况,并按照调度流程来呈现整体的运行状况,支持集群Timeline展示、系统视图详情查看等功能。 - Memory 提供采集过程中内存信息的可视化呈现。通过算子内存折线图直观清晰了解算子内存趋势。 - Operator 提供算子耗时统计和分析。 - Summary 展示计算算子和通信算子的耗时分析,并以柱状图、折线图以及数据窗格等呈现方式显示分析结果。 仅在导入PyTorch或MindSpore集群场景数据时才会支持。 Communication 展示集群中全网链路性能以及所有节点的通信性能,通过集群通信与计算重叠时间的分析可以找出集群训练中的慢主机或慢节点。 仅在导入PyTorch或MindSpore集群场景数据时才会支持。