通过工具生成解析数据
启动工具
AI Core Error Analyzer默认提取EP场景的落盘日志进行分析,若需要对RC场景进行分析,则执行分析之前需要将应用工程中的.project文件中的target_id属性修改为“RC”(如图1所示),保证提取的分析数据的路径为RC场景的落盘日志路径。有关EP和RC场景的落盘日志路径信息请参见《日志参考》。
- 单击工具栏菜单 ,启动AI Core Error Analyzer。
- AI Core Error Analyzer参数配置。图2 参数配置(Remote Run)图3 参数配置(Local Run)
表1 参数说明 参数
说明
Run Mode
- Remote Run:远程运行。
- Local Run:本地运行。
Windows使用场景下仅支持Remote Run,该参数不展示。
SSH Connection
远程服务器地址。下拉选择远程运行应用的服务器地址,若未添加,请单击
进行添加,详情请参见Deployment。
Compile Path
推理场景为模型转换生成的debug文件路径,请参见“数据准备”章节中的3。训练场景为脚本执行路径。用于存储算子编译中间生成的输出件和pbtxt,一般为“kernel_meta”文件的父路径(例如:~/model_convert)。
Output Path
分析结果输出本地路径,用户自行配置。
- 单击“Analyze”,在MindStudio界面下方“Output”栏显示分析结果。比对结果存放在表1中“Output Path”配置的路径。
生成结果文件
所有AI Core Error Analyzer生成的文件会保存在当前IDE路径下,当前IDE路径格式一般为“info_*”(*为时间戳,例如“info_20200903114406”)。生成的结果文件请以实际情况为准,以下示例仅供参考。
- 推理场景(示例):
- Ascend EP场景:
├── aicore_error │ ├──aicerr_out │ ├──info_* │ ├──aicerror_* //AI Core Error Analyzer生成文件 │ ├──info.txt //AI Core Error Analyzer解析结果汇总文件 │ ├──te_transdata_*.o │ ├──te_transdata_*.o.txt //反编译文件 │ ├──collection //异常算子涉及文件 │ ├──compil │ ├──kernel_meta │ ├──cce文件 │ ├──json文件 │ ├──loc.json文件 │ ├──.o文件 │ ├──ge_proto_xxxx_Build.txt │ ├──dump //搬运的dump文件 │ ├──log //Host侧日志 │ ├──* //时间信息 │ ├──error.log //收集了日志目录下所有ERROR级别日志信息 │ ├──README.txt │ ├──npu_report │ ├──* //时间信息 │ ├──hisi_logs //黑匣子错误信息 │ ├──message //Device侧操作系统日志 │ ├──slog │ ├──stackcore
- Ascend RC场景:
├── aicore_error │ ├──aicerr_out │ ├──info_* │ ├──aicerror_* //AI Core Error Analyzer生成文件 │ ├──info.txt //AI Core Error Analyzer解析结果汇总文件 │ ├──te_transdata_*.o │ ├──te_transdata_*.o.txt //反编译文件 │ ├──collection //异常算子涉及文件 │ ├──compil │ ├──kernel_meta │ ├──cce文件 │ ├──json文件 │ ├──loc.json文件 │ ├──.o文件 │ ├──ge_proto_xxxx_Build.txt │ ├──dump //搬运的dump文件 │ ├──xxxxx │ ├──error.log //收集了日志目录下所有ERROR级别日志信息 │ ├──README.txt
- Ascend EP场景:
- 训练场景(示例):
├── aicore_error │ ├──aicerr_out │ ├──info_* │ ├──collection //异常算子涉及文件 │ ├──log //Host侧日志 │ ├──* //进程ID │ ├──* //时间信息 │ ├──hisi_logs //黑匣子错误信息 │ ├──slog │ ├──npu_report │ ├──* //时间信息 │ ├──hisi_logs //黑匣子错误信息 │ ├──message //Device侧操作系统日志 │ ├──slog │ ├──stackcore
父主题: AI Core Error分析