在命令行中执行如下命令配置环境变量,需要根据开发套件包的实际安装路径配置。
export install_path=$HOME/Ascend/ascend-toolkit/latest# 软件包安装路径,请根据实际修改 export PATH=/usr/local/python3.7.5/bin:${install_path}/atc/ccec_compiler/bin:${install_path}/atc/bin:$PATH # 如果用户环境存在多个python3版本,则指定使用python3.7.5版本,python3.7.5安装路径请根据实际情况进行替换;同时设置ATC工具可执行文件所在路径
参数 |
简写 |
是否必选 |
说明 |
---|---|---|---|
--compile_path |
-c |
必选 |
推理:指定ATC模型转换过程中,算子编译生成kernel_meta目录的父目录。 训练:训练脚本执行的目录。 |
--report_path |
-p |
必选 |
Device侧(运行环境)日志回传到Host侧(本地环境)的落盘目录下的时间戳目录。具体回传方法请参考《日志参考》中的“附录>msnpureport工具使用指南”。 |
--output |
-out |
可选 |
AI Core Error生成的报告文件目录。不填写默认为当前目录。 |
参数 |
简写 |
是否必选 |
说明 |
---|---|---|---|
--compile_path |
-c |
必选 |
指定ATC模型转换过程中,算子编译生成kernel_meta目录的父目录。 |
--report_path |
-p |
必选 |
日志落盘目录。默认落盘在运行环境的“/var/log/npu/”目录下,需要执行scp -r命令将该目录下的日志文件拷贝到开发环境。 |
--output |
-out |
可选 |
AI Core Error生成的报告文件目录。不填写默认为当前目录。 |
进入脚本所在目录,通过命令行运行脚本启动AI Core Error分析工具。
脚本所在目录为“{toolkit包安装路径}/tools/msaicerr”。
推理:
$ python3 msaicerr.py --compile_path /home/.../Project/aicerror_data/compile_path_infer --report_path /home/.../Project/aicerror_data/msnpulog --output local_infer
训练:
$ python3 msaicerr.py --compile_path /home/.../Project/aicerror_data/compile_path_train --report_path /home/.../Project/aicerror_data/msnpulog --output local_train
AI Core Error Analyzer生成的文件会保存在--output参数指定路径下的“info_*”(*为时间戳,例如“info_20200903114406”)文件夹中。生成的结果文件请以实际情况为准,以下示例仅供参考。
├── aicore_error │ ├──aicerr_out │ ├──info_* │ ├──aicerror_* //AI Core Error分析工具生成文件 │ ├──info.txt //AI Core Error工具解析结果汇总文件 │ ├──ts.log //分析黑匣子中的ts.txt生成的日志文件 │ ├──te_transdata_*.o │ ├──te_transdata_*.o.txt //反编译文件 │ ├──collection //异常算子涉及文件 │ ├──compile │ ├──kernel_meta │ ├──cce文件 │ ├──json文件 │ ├──loc.json文件 │ ├──.o文件 │ ├──ge_proto_*_Build.txt │ ├──dump //搬运的dump文件(推理场景,该目录下为空) │ ├──log //Host侧日志 │ ├──* //时间信息 │ ├──hisi_logs //黑匣子日志 │ ├──slog //Device侧的slog │ ├──error.log //收集了日志目录下所有ERROR级别日志信息 │ ├──imas.log //GE的IMAS日志 │ ├──README.txt │ ├──npu_report │ ├──* //时间信息 │ ├──hisi_logs //黑匣子日志 │ ├──message //Device侧操作系统日志 │ ├──slog │ ├──stackcore
├── aicore_error │ ├──aicerr_out │ ├──info_* │ ├──aicerror_* //AI Core Error分析工具生成文件 │ ├──info.txt //AI Core Error工具解析结果汇总文件 │ ├──ts.log //分析黑匣子中的ts.txt生成的日志文件 │ ├──te_transdata_*.o │ ├──te_transdata_*.o.txt //反编译文件 │ ├──collection //异常算子涉及文件 │ ├──compile │ ├──kernel_meta │ ├──cce文件 │ ├──json文件 │ ├──loc.json文件 │ ├──.o文件 │ ├──ge_proto_xxxx_Build.txt │ ├──dump //搬运的dump文件(推理场景,该目录下为空) │ ├──log //Host侧日志 │ ├──* //根据-p参数最后一级目录变化 │ ├──hisi_logs //黑匣子日志 │ ├──slog │ ├──error.log //收集了日志目录下所有ERROR级别日志信息 │ ├──imas.log //GE的IMAS日志 │ ├──README.txt