昇腾社区首页
中文
注册

问题分析和定位

用户可以直接通过命令执行窗口或者info.txt文件进行问题分析和定位。关键信息说明:

********************Root cause conclusion*********************
#符合已知故障模式的问题会列出对问题根因的判断。

***********************1. Basic information********************
#AI Core error发生时设备的基本信息。
#kernel name:算子名称。
#op address: 算子代码在ddr内存的地址
#args address:算子参数在ddr内存的地址。
error time   : 2020-08-26-11:24:07
device id    : 0
core id      : 0
task id      : 60
stream id    : 517
node name    : trans_TransData_167
kernel name  : te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb
op address   : 0x101000120000
args address : 0X101000053000

***********************2. AICERROR code***********************
#AI Core error错误码及解释。
code  : 0x10

CCU_ERR_INFO: 0xb166486200070074
    ccu_err_addr bit[22:8]=000011100000000  meaning:CCU Error Address [17:3]  approximate:0x3800

***********************3. Instructions************************
#异常指令。
start   pc   : 0x101000120000
current pc   : 0x1010001201e0

Error occured most likely at line: 1d0
                
/{--output参数指定路径}/aicerror_xxxx/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.o.txt:1d0
/{--output参数指定路径}/collection/compile/kernel_meta/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.cce:32    //出错算子的cce代码行号
/{python脚本文件路径}/nz_2_nd.py:4486     //出错算子的python代码行号

related instructions (error occured before the mark *):

     1bc: <not available>
     1c0: <not available>
     1c4: <not available>
     1c8: <not available>
     1cc: <not available>
     1d0: <not available>
     1d4: <not available>
     1d8: <not available>
     1dc: <not available>
*    1e0: <not available>  

For complete instructions, please view /{--output参数指定路径}/aicerror_xxxx/te_transdata_16b6e15e2a5cc7f70_33e5fb7ae8478ddb.o.txt

****************4. Input and output of node*******************
#输入输出信息。
#从GE的IMAS日志中解析出输入输出地址,从build图中解析出size。
#如果有内存零拷贝情况,日志中可以解析出新地址new addr。
#如果地址不在RTS申请日志的记录范围内,会给出 OVERFLOW 标记。
#如果收集了device内存数据,会检测数据中是否有 NaN/INF ,但只有在device挂起后收集到的数据才是准确的。
#如果检测到kernel函数中输入输出个数与此处个数不相等,会给出 WARNING,很有可能发生了GE给的参数与算子处理的参数错位问题。
input[0]  addr: 0x100801126600  size: 32288      
output[0]  addr: 0x100801157c00  size: 2048      

***********************5. Op in graph*************************
#出错算子信息。
#从build图中截取op信息,方便查看。