MTE流水错误,一般为copy_ub_to_gm或者copy_gm_to_ub两个指令报错,出错的原因一般是atomic数据溢出或者地址不对。
- 访问out内存越界,常见原因:算子在特定shape下计算内存偏移量不正确,infershape推导不正确导致算子实际使用内存和GE分配的内存大小不一致,传给kernel函数的地址无法访问。
- 数据溢出问题,导致atomic报错,一般非当前算子的问题,这种问题目前最多,需要使用放开中断屏蔽的版本排查,定位到引入inf/NAN数据的算子。需要排查溢出或引入inf/nan数据的算子,由于大部分网络结构都比较复杂,正向排查比较困难,需要将中断屏蔽放开去排查。