昇腾社区首页
中文
注册

日志介绍

本节介绍黑匣子日志文件如何使用,可以参考以下步骤操作。

  1. 进入黑匣子日志存放目录。

    黑匣子日志是通过msnpureport工具导出的,导出方法请参见msnpureport工具使用。存放目录为运行msnpureport工具的所在路径(如“/var/log/npu/report”)。

    Ascend EP场景下,命令示例如下:

    cd /var/log/npu/report/2020-10-20-03-12-05/hisi_logs

    • "/var/log/npu/report/":运行msnpureport工具的所在路径,请根据实际情况修改。
    • 2020-10-20-03-12-05:运行msnpureport工具生成的时间戳目录,请根据实际情况修改。
    • hisi_logs下面存在device-id文件夹及device_info.txt文件。
      • device-id:表示Device设备的ID号,保存对应设备的异常信息。
      • device_info.txt:记录了设备信息。

    Ascend RC场景下,命令示例如下:

    cd /var/log/npu/hisi_logs/device-id/

    id表示Device设备的ID号。/var/log/npu/hisi_logs/为默认的黑匣子日志存放路径,用户可通过配置文件修改这个路径,配置文件介绍请参见配置介绍

  2. 查看history.log文件。

    找到出现异常的设备device-id子目录,查看该目录下history.log日志。history.log日志格式及说明如下。

    [2020-02-27-19:18:46.142527] system exception code [0x68020002]: ModuleName [DRIVER], ExceptionReason [DEVICE_HBL_EXCEPTION],  TimeStamp [20200227191842-300803183].
    表1 history.log文件内容字段及含义

    字段

    含义

    [2020-02-27-19:18:46.142527]

    异常文件落盘的时间。

    system exception code [0x68020002]

    模块上报的异常码 [0x68020002]。

    ModuleName [DRIVER]

    异常上报的模块名称 [驱动]。

    ExceptionReason [DEVICE_HBL_EXCEPTION]

    模块上报的异常原因 [设备心跳丢失]。

    TimeStamp [20200227191842-300803183]

    异常上报的时间戳 [20200227191842-300803183]。

    • history.log到达30000条时会启动日志老化,删除最早的20000条信息,及对应的文件夹。
    • Ascend EP场景下,对于ModuleName [AP],ExceptionReason [OS_OOM]异常,history.log中TimeStamp记录的是运行导出工具时获取到的时间戳,实际异常上报的时间戳需要在步骤3中的bbox/bbox_info.txt内查看。
  3. 查看具体模块异常日志。

    根据异常上报时间戳信息(如TimeStamp[20200227191842-300803183])打开日志目录,目录名称即为时间戳(20200227191842-300803183),模块的具体异常信息保存在该目录下。文件说明如下所示。

    表2 日志文件路径及内容说明(昇腾310系列处理器

    文件相对路径

    文件内容

    DONE

    黑匣子日志记录状态。

    bbox

    黑匣子静态预留空间维测数据目录。

    bbox/bbox_info.txt

    记录黑匣子基本信息。

    bbox/[module].txt

    记录模块[module]的异常信息,如ts.txt。

    bbox/kbox.txt

    记录部分Kernel日志和内核信息,如堆栈信息。

    bbox/os

    OS维测信息。

    bbox/os/os_info.txt

    记录OS基本信息。

    bbox/os/regs

    记录OS关注的寄存器信息。

    bbox/os/regs/reset_regs.txt

    记录复位寄存器信息。

    log

    各类日志目录。

    log/imu_boot.log

    记录IMU启动日志。

    log/imu_run.log

    记录IMU运行日志。

    log/uefi_boot.log

    记录UEFI启动日志。

    log/kernel.log

    记录OS内核日志信息。

    log/ts.log

    记录TS日志信息。

    mntn

    模块独立维测数据目录。

    mntn/ddr_mntn.txt

    记录DDR维测数据。

    mntn/bios_mntn.txt

    记录BIOS维测数据。

    mntn/pmu.reg

    记录PMU寄存器信息。

    mntn/tsensor.reg

    记录Tsensor寄存器信息。

    snapshot

    快照信息目录。

    snapshot/hdr.log

    记录快照信息。

    snapshot/hdr_status.txt

    记录快照打点信息。

  • Device侧
    • 当黑匣子日志落盘过程中出现log-daemon进程异常时,日志内容不可控,存在丢失风险。
    • 当黑匣子日志存放路径(/var/log/npu/hisi_logs目录)所在磁盘空间不足时,无法生成黑匣子日志。
    • 当日志路径下的总文件大小超过MNTN_LOGSPACE_SIZE的配置值时,系统将循环删除时间最早的文件。
  • Host侧
    • Ascend EP场景下,运行msnpureport工具的所在路径(如“/var/log/npu/report”)的磁盘空间不足时,无法生成黑匣子日志。
    • DONE文件记录3种状态:
      • STARTING:异常上报流程处理中,异常日志正在导出。
      • FILEDONE:异常上报流程处理完成,异常日志导出正常,异常信息保存完整。
      • PROCFAIL:异常上报流程处理完成,异常日志导出失败,异常信息保存不完整。