问题分析和定位
用户可以直接通过命令执行窗口或者info.txt文件进行问题分析和定位。关键信息说明:
********************Root cause conclusion********************* #符合已知故障模式的问题会列出对问题根因的判断。 ***********************1. Basic information******************** #AI Core error发生时设备的基本信息。 #kernel name:算子名称。 #op address: 算子代码在ddr内存的地址。 #args address:算子参数在ddr内存的地址。 error time : 2020-08-26-11:24:07 device id : 0 core id : 0 task id : 60 stream id : 517 node name : trans_TransData_167 kernel name : te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb op address : 0x101000120000 args address : 0X101000053000 ***********************2. AICERROR code*********************** #AI Core error错误码及解释。 code : 0x10 CCU_ERR_INFO: 0xb166486200070074 ccu_err_addr bit[22:8]=000011100000000 meaning:CCU Error Address [17:3] approximate:0x3800 ***********************3. Instructions************************ #异常指令。 start pc : 0x101000120000 current pc : 0x1010001201e0 Error occured most likely at line: 1d0 /{--output参数指定路径}/aicerror_xxxx/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.o.txt:1d0 /{--output参数指定路径}/collection/compile/kernel_meta/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.cce:32 //出错算子的cce代码行号 /{python脚本文件路径}/nz_2_nd.py:4486 //出错算子的python代码行号 related instructions (error occured before the mark *): 1bc: <not available> 1c0: <not available> 1c4: <not available> 1c8: <not available> 1cc: <not available> 1d0: <not available> 1d4: <not available> 1d8: <not available> 1dc: <not available> * 1e0: <not available> For complete instructions, please view /{--output参数指定路径}/aicerror_xxxx/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.o.txt ****************4. Input and output of node******************* #输入输出信息。 #从GE的IMAS日志中解析出输入输出地址,从build图中解析出size。 #如果有内存零拷贝情况,日志中可以解析出新地址new addr。 #如果地址不在RTS申请日志的记录范围内,会给出 OVERFLOW 标记。 #如果收集了device内存数据,会检测数据中是否有 NaN/INF ,但只有在device挂起后收集到的数据才是准确的。 #如果检测到kernel函数中输入输出个数与此处个数不相等,会给出 WARNING,很有可能发生了GE给的参数与算子处理的参数错位问题。 input[0] addr: 0x100801126600 size: 32288 output[0] addr: 0x100801157c00 size: 2048 ***********************5. Op in graph************************* #出错算子信息。 #从build图中截取op信息,方便查看。