问题分析和定位
用户可以直接通过命令执行窗口或者info.txt文件进行问题分析和定位。关键信息说明:
********************Root cause conclusion*********************
#符合已知故障模式的问题会列出对问题根因的判断。
***********************1. Basic information********************
#AI Core error发生时设备的基本信息。
#kernel name:算子名称。
#op address: 算子代码在ddr内存的地址。
#args address:算子参数在ddr内存的地址。
error time : 2020-08-26-11:24:07
device id : 0
core id : 0
task id : 60
stream id : 517
node name : trans_TransData_167
kernel name : te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb
op address : 0x101000120000
args address : 0X101000053000
***********************2. AICERROR code***********************
#AI Core error错误码及解释。
code : 0x10
CCU_ERR_INFO: 0xb166486200070074
ccu_err_addr bit[22:8]=000011100000000 meaning:CCU Error Address [17:3] approximate:0x3800
***********************3. Instructions************************
#异常指令。
start pc : 0x101000120000
current pc : 0x1010001201e0
Error occured most likely at line: 1d0
/{--output参数指定路径}/aicerror_xxxx/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.o.txt:1d0
/{--output参数指定路径}/collection/compile/kernel_meta/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.cce:32 //出错算子的cce代码行号
/{python脚本文件路径}/nz_2_nd.py:4486 //出错算子的python代码行号
related instructions (error occured before the mark *):
1bc: <not available>
1c0: <not available>
1c4: <not available>
1c8: <not available>
1cc: <not available>
1d0: <not available>
1d4: <not available>
1d8: <not available>
1dc: <not available>
* 1e0: <not available>
For complete instructions, please view /{--output参数指定路径}/aicerror_xxxx/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.o.txt
****************4. Input and output of node*******************
#输入输出信息。
#从GE的IMAS日志中解析出输入输出地址,从build图中解析出size。
#如果有内存零拷贝情况,日志中可以解析出新地址new addr。
#如果地址不在RTS申请日志的记录范围内,会给出 OVERFLOW 标记。
#如果收集了device内存数据,会检测数据中是否有 NaN/INF ,但只有在device挂起后收集到的数据才是准确的。
#如果检测到kernel函数中输入输出个数与此处个数不相等,会给出 WARNING,很有可能发生了GE给的参数与算子处理的参数错位问题。
input[0] addr: 0x100801126600 size: 32288
output[0] addr: 0x100801157c00 size: 2048
***********************5. Op in graph*************************
#出错算子信息。
#从build图中截取op信息,方便查看。
父主题: AI Core Error分析工具