昇腾社区首页
中文
注册

通过工具生成解析数据

设置环境变量

本工具需要配套Python使用,Python版本支持情况请参见CANN 软件安装指南中的“安装开发环境>安装依赖>依赖列表”章节。

在命令行中执行如下命令配置环境变量,需要根据开发套件包的实际安装路径配置。

export install_path=$HOME/Ascend/ascend-toolkit/latest# 软件包安装路径,请根据实际修改
export PATH=/usr/local/python3.7.5/bin:${install_path}/atc/ccec_compiler/bin:${install_path}/atc/bin:$PATH # 如果用户环境存在多个python3版本,则指定使用python3.7.5版本,python3.7.5安装路径请根据实际情况进行替换;同时设置ATC工具可执行文件所在路径

启动工具

表1 参数配置说明(Ascend EP场景)

参数

简写

是否必选

说明

--compile_path

-c

必选

推理:指定ATC模型转换过程中,算子编译生成kernel_meta目录的父目录。

训练:训练脚本执行的目录。

--report_path

-p

必选

Device侧(运行环境)日志回传到Host侧(本地环境)的落盘目录下的时间戳目录。具体回传方法请参考日志参考中的“附录>msnpureport工具使用指南”。

--output

-out

可选

AI Core Error生成的报告文件目录。不填写默认为当前目录。

表2 参数配置说明(Ascend RC场景)

参数

简写

是否必选

说明

--compile_path

-c

必选

指定ATC模型转换过程中,算子编译生成kernel_meta目录的父目录。

--report_path

-p

必选

日志落盘目录。默认落盘在运行环境的“/var/log/npu/”目录下,需要执行scp -r命令将该目录下的日志文件拷贝到开发环境。

--output

-out

可选

AI Core Error生成的报告文件目录。不填写默认为当前目录。

进入脚本所在目录,通过命令行运行脚本启动AI Core Error分析工具。

脚本所在目录为“{toolkit包安装路径}/tools/msaicerr”。

推理:

$ python3 msaicerr.py --compile_path /home/.../Project/aicerror_data/compile_path_infer --report_path
/home/.../Project/aicerror_data/msnpulog --output local_infer

训练:

$ python3 msaicerr.py --compile_path /home/.../Project/aicerror_data/compile_path_train --report_path
/home/.../Project/aicerror_data/msnpulog --output local_train

生成结果文件

AI Core Error Analyzer生成的文件会保存在--output参数指定路径下的“info_*”(*为时间戳,例如“info_20200903114406”)文件夹中。生成的结果文件请以实际情况为准,以下示例仅供参考。

  • Ascend EP场景:
    ├── aicore_error  
    │   ├──aicerr_out
    │        ├──info_*
    │             ├──aicerror_*  //AI Core Error分析工具生成文件   
    │                  ├──info.txt    //AI Core Error工具解析结果汇总文件
    │                  ├──ts.log    //分析黑匣子中的ts.txt生成的日志文件
    │                  ├──te_transdata_*.o  
    │                  ├──te_transdata_*.o.txt   //反编译文件
    │             ├──collection    //异常算子涉及文件
    │                  ├──compile
    │                       ├──kernel_meta
    │                            ├──cce文件
    │                            ├──json文件
    │                            ├──loc.json文件
    │                            ├──.o文件                            
    │                       ├──ge_proto_*_Build.txt
    │                  ├──dump    //搬运的dump文件(推理场景,该目录下为空)
    │                  ├──log    //Host侧日志
    │                  ├──*   //时间信息 
    │                       ├──hisi_logs    //黑匣子日志
    │                       ├──slog  //Device侧的slog
    │             ├──error.log    //收集了日志目录下所有ERROR级别日志信息
    │             ├──imas.log    //GE的IMAS日志
    │             ├──README.txt
    │   ├──npu_report    
    │        ├──*   //时间信息
    │             ├──hisi_logs    //黑匣子日志
    │             ├──message    //Device侧操作系统日志
    │             ├──slog  
    │             ├──stackcore                
  • Ascend RC场景:
    ├── aicore_error  
    │   ├──aicerr_out
    │        ├──info_*  
    │             ├──aicerror_*  //AI Core Error分析工具生成文件   
    │                  ├──info.txt    //AI Core Error工具解析结果汇总文件
    │                  ├──ts.log    //分析黑匣子中的ts.txt生成的日志文件
    │                  ├──te_transdata_*.o  
    │                  ├──te_transdata_*.o.txt   //反编译文件
    │             ├──collection    //异常算子涉及文件
    │                  ├──compile
    │                       ├──kernel_meta
    │                            ├──cce文件
    │                            ├──json文件
    │                            ├──loc.json文件
    │                            ├──.o文件                            
    │                       ├──ge_proto_xxxx_Build.txt
    │                  ├──dump    //搬运的dump文件(推理场景,该目录下为空)
    │                  ├──log    //Host侧日志
    │                  ├──*   //根据-p参数最后一级目录变化
    │                       ├──hisi_logs    //黑匣子日志
    │                       ├──slog  
    │             ├──error.log    //收集了日志目录下所有ERROR级别日志信息
    │             ├──imas.log    //GE的IMAS日志
    │             ├──README.txt