昇腾社区首页
中文
注册
开发者
下载

快照导出

Ascend EP场景

快照日志存在以下导出方式:

  • 被动导出
    • msnpureport工具检测到Device设备启动异常后,导出快照。

      标志为:导出路径+/hisi_logs/device-x/history.log中记录有设备丢失异常(DEVICE_LTO_EXCEPTION)。

    • msnpureport工具检测到Device设备心跳丢失异常后,导出快照。

      标志为:导出路径+/hisi_logs/device-x/history.log中记录有设备心跳异常(DEVICE_HBL_EXCEPTION)。

  • 主动导出

    设备热复位时,若快照数据中有异常信息,Device侧黑匣子会上报快照数据至用户态进程,用户态进程会解析数据成明文并落盘成文件。在Host侧执行msnpureport工具,导出快照。

    标志为:导出路径+/hisi_logs/device-x/history.log中记录有启动异常(STARTUP_EXCEPTION)或运行异常(RUN_EXCEPTION)。

Ascend RC场景

快照日志存在主动导出方式:设备热复位时,若快照数据中有异常信息,Device侧黑匣子会上报快照数据至Host侧,Host会解析数据成明文并落盘成文件。

标志为:/var/log/npu/hisi_logs/device-0/history.log中记录有启动异常(STARTUP_EXCEPTION)或运行异常(RUN_EXCEPTION)。

  • 设备启动异常和心跳异常,为被动导出,不会存在实时的控制数据,需要热复位后填写。
  • 快照导出的判定条件为:
    • 启动打点区:type [history] + rw status [wait read] + exception [true]。
    • 启动日志区:控制信息中error area count不为0,且控制信息队列中有flag值为0x4。
  • 快照上报为启动异常还是运行异常的判定条件为:热复位计数最小的异常。
  • Ascend RC场景下,日志记录在/var/log/npu/hisi_logs/device-0/<时间戳目录>/snapshot/hdr.log。
  • 快照日志内容记录在:导出路径+/hisi_logs/device-x/<时间戳目录>/snapshot/hdr.log。
  • 快照打点内容记录在:导出路径+/hisi_logs/device-x/<时间戳目录>/snapshot/hdr_status.txt。