昇腾社区首页
中文
注册

通过工具生成解析数据

启动工具

AI Core Error Analyzer默认提取EP场景的落盘日志进行分析,若需要对RC场景进行分析,则执行分析之前需要将应用工程中的.project文件中的target_id属性修改为“RC”(如图1所示),保证提取的分析数据的路径为RC场景的落盘日志路径。有关EP和RC场景的落盘日志路径信息请参见日志参考
图1 .project文件
  1. 单击工具栏菜单Ascend > AI Core Error Analyzer,启动AI Core Error Analyzer。
  2. AI Core Error Analyzer参数配置。
    图2 参数配置(Remote Run)
    图3 参数配置(Local Run)
    表1 参数说明

    参数

    说明

    Run Mode

    • Remote Run:远程运行。
    • Local Run:本地运行。

    Windows使用场景下仅支持Remote Run,该参数不展示。

    SSH Connection

    远程服务器地址。下拉选择远程运行应用的服务器地址,若未添加,请单击进行添加,详情请参见Deployment

    Compile Path

    推理场景为模型转换生成的debug文件路径,请参见“数据准备”章节中的3。训练场景为脚本执行路径。用于存储算子编译中间生成的输出件和pbtxt,一般为“kernel_meta”文件的父路径(例如:~/model_convert)。

    Output Path

    分析结果输出本地路径,用户自行配置。

  3. 单击“Analyze”,在MindStudio界面下方“Output”栏显示分析结果。
    比对结果存放在表1“Output Path”配置的路径。

    分析过程中若报错“TOOLCHAIN_HOME is empty”,请参见CANN 软件安装指南中安装Ascend-cann-toolkit包时配置$HOME/ascend-toolkit/set_env.sh脚本配置TOOLCHAIN_HOME环境变量。

生成结果文件

所有AI Core Error Analyzer生成的文件会保存在当前IDE路径下,当前IDE路径格式一般为“info_*”(*为时间戳,例如“info_20200903114406”)。生成的结果文件请以实际情况为准,以下示例仅供参考。

  • 推理场景(示例):
    • Ascend EP场景:
      ├── aicore_error  
      │   ├──aicerr_out
      │        ├──info_*  
      │             ├──aicerror_*  //AI Core Error Analyzer生成文件   
      │                  ├──info.txt    //AI Core Error Analyzer解析结果汇总文件
      │                  ├──te_transdata_*.o  
      │                  ├──te_transdata_*.o.txt   //反编译文件
      │             ├──collection    //异常算子涉及文件
      │                  ├──compil
      │                       ├──kernel_meta
      │                            ├──cce文件
      │                            ├──json文件
      │                            ├──loc.json文件
      │                            ├──.o文件                            
      │                       ├──ge_proto_xxxx_Build.txt
      │                  ├──dump    //搬运的dump文件
      │                  ├──log    //Host侧日志
      │                  ├──*   //时间信息    
      │             ├──error.log    //收集了日志目录下所有ERROR级别日志信息
      │             ├──README.txt
      │   ├──npu_report    
      │        ├──*   //时间信息
      │             ├──hisi_logs    //黑匣子错误信息
      │             ├──message    //Device侧操作系统日志
      │             ├──slog  
      │             ├──stackcore                
    • Ascend RC场景:
      ├── aicore_error  
      │   ├──aicerr_out
      │        ├──info_*
      │             ├──aicerror_*  //AI Core Error Analyzer生成文件   
      │                  ├──info.txt    //AI Core Error Analyzer解析结果汇总文件
      │                  ├──te_transdata_*.o  
      │                  ├──te_transdata_*.o.txt   //反编译文件
      │             ├──collection    //异常算子涉及文件
      │                  ├──compil
      │                       ├──kernel_meta
      │                            ├──cce文件
      │                            ├──json文件
      │                            ├──loc.json文件
      │                            ├──.o文件                            
      │                       ├──ge_proto_xxxx_Build.txt
      │                  ├──dump    //搬运的dump文件
      │                  ├──xxxxx       
      │             ├──error.log    //收集了日志目录下所有ERROR级别日志信息
      │             ├──README.txt           
  • 训练场景(示例):
    ├── aicore_error  
    │   ├──aicerr_out
    │        ├──info_*  
    │             ├──collection    //异常算子涉及文件
    │                  ├──log    //Host侧日志
    │                       ├──*    //进程ID
    │                  ├──*    //时间信息
    │                       ├──hisi_logs    //黑匣子错误信息
    │                       ├──slog
    │   ├──npu_report    
    │        ├──*    //时间信息
    │             ├──hisi_logs    //黑匣子错误信息
    │             ├──message    //Device侧操作系统日志
    │             ├──slog  
    │             ├──stackcore