昇腾社区首页
中文
注册

日志采集目录结构

本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。

  • Ascend-fd parse输入目录的日志文件大小会影响执行清洗命令的效率,总文件大小应限制在5G以下,文件总数量不能超过1000000。
  • CANN应用类日志的单个文件应限制在20MB以下。
  • NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
  • 用户训练及推理日志大小无限制,会默认只读最后1MB日志。
  • Host OS系统日志当前支持messages、dmesg、vmcore_dmesg.txt和sysmonitor.log日志,其中单个文件的转储大小上限请限制在512MB以下;dmesg日志取最新的日志,最大100000行。
  • process_log、environment_check、device_log、dl_log、mindie、amct_log位置不受约束,存放在采集目录下任意位置均可。
  • 用户若在容器中进行训练及推理,请及时保存日志至宿主机,如用户训练及推理日志、CANN应用类日志。
  • 训练及推理前或后NPU环境检查文件、NPU网口统计监测指标文件、NPU状态监测指标文件、主机侧资源信息、主机侧操作系统日志和Device侧日志、MindCluster组件日志、MindIE组件日志、AMCT组件日志请在宿主机上采集。
  • Volcano组件中volcano-scheduler与volcano-controller触发转储后以gzip压缩的转储日志将不会被读取,采集时需确保相关日志都已在未转储的volcano-scheduler.log与volcano-controller.log中。
  • MindIE Pod打屏日志可在k8s集群主节点收集所有Pod的打屏日志,可将所有MindIE Pod打屏日志放在某个节点指定目录下即可,无需分开存放。
  • MindIE Pod打屏日志存在老化机制,若采集的MindIE Pod打屏日志缺失实例节点信息,组件将不支持多实例故障诊断。
  • 用户可将所有日志汇总至同一采集目录下进行清洗,待清洗相关文件目录结构示例如下。
    • 主机HOST侧日志目录结构如下所示。
      采集目录
      |-- messages             # 主机侧操作系统日志
      |-- dmesg                # 主机侧内核消息日志
      |-- crash
          |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29)
              |-- vmcore_dmesg.txt     # 系统崩溃时保存的Host侧内核消息日志文件
      |-- sysmonitor.log       # 主机侧系统监测日志
      |-- rank-0.txt           # 训练及推理打屏日志
      |-- dmidecode.txt        # dmidecode命令输出日志
      ...
      |-- rank-7.txt           # 训练及推理打屏日志
      |-- process_log          # CANN应用侧原始日志,目录名需为process_log
      |-- device_log           # Device侧日志,目录名需为device_log
      |-- dl_log               # MindCluster组件日志,目录名需为dl_log
          |-- devicePlugin       # Ascend Device Plugin组件日志
          |-- noded              # NodeD组件日志
          |-- ascend-docker-runtime        # Ascend Docker Runtime组件日志
          |-- volcano-scheduler            # Volcano中的volcano-scheduler组件日志
          |-- volcano-controller           # Volcano中的volcano-controller组件日志
          |-- npu-exporter                 # NPU Exporter组件日志
      |-- mindie               # MindIE组件日志
          |-- log
              |-- debug        # MindIE组件运行日志
              |-- security     # MindIE组件审计日志
              |-- mindie_cluster_log     # MindIE Pod打屏日志
      |-- amct_log             # AMCT组件日志
      |-- environment_check # NPU网口、状态信息、资源信息
          |-- npu_smi_0_details.csv   # NPU状态监测指标文件
           ...
          |-- npu_smi_7_details.csv   # NPU状态监测指标文件
          |-- npu_0_details.csv       # NPU网口统计监测指标文件
           ...    
          |-- npu_7_details.csv       # NPU网口统计监测指标文件
          |-- npu_info_before/after.txt  # 训练及推理前或后NPU环境检查文件
          |-- host_metrics_{core_num}.json # 主机资源监测指标文件
    • BMC侧日志目录结构如下所示。
      采集目录/dump_info/AppDump/*/*.log
      采集目录/dump_info/DeviceDump/*/*.log
      采集目录/dump_info/LogDump/*/*.log
      采集目录/dump_info/AppDump/frudata/fruinfo.txt  # BMC扩展板SN采集目录
      采集目录/dump_info/AppDump/chassis/mdb_info.log   # BMC超节点信息采集目录
    • LCNE侧日志目录结构如下所示。
      采集目录/*/diagnostic_information/slot_1/tempdir/devm_bddrvadp.log  # LCNE扩展板SN采集目录
      采集目录/*/diag_display_info.txt  # LCNE超节点信息采集目录
      采集目录/*/log.log
      采集目录/*/log_1_*.log

      各目录中存放的日志文件请参见表1

      表1 日志文件列表

      文件类型

      日志文件

      文件说明

      存储目录

      CANN应用类日志

      plog-{pid}_{time}.log

      Host侧应用类日志。

      采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log

      device-{pid}_{time}.log

      Device侧应用类日志。

      采集目录/process_log/debug或run/device-{id}/device-{pid}_{time}.log

      用户训练及推理日志

      rank-{id}.txt

      rank-{id}.log

      worker-{id}.txt

      worker-{id}.log

      训练及推理打屏日志。

      • 采集目录/rank-{id}.*?.txt
      • 采集目录/rank-{id}.*?.log
      • 采集目录/worker-{id}.*?.log
      • 采集目录/worker-{id}.*?.txt

      NPU网口资源信息

      npu_info_before.txt

      训练及推理前NPU网口检查。

      采集目录/environment_check/npu_info_before.txt

      npu_info_after.txt

      训练及推理后NPU网口检查。

      采集目录/environment_check/npu_info_after.txt

      npu_smi_{npu_id}_details.csv

      NPU状态监测指标文件。

      采集目录/environment_check/npu_smi_{npu_id}_details.csv

      npu_{npu_id}_details.csv

      NPU网口统计监测指标文件。

      采集目录/environment_check/npu_{npu_id}_details.csv

      主机侧资源信息

      host_metrics_{core_num}.json

      主机资源监测指标文件。

      采集目录/environment_check/host_metrics_{core_num}.json

      dmidecode.txt

      主机侧包含dmi硬件信息的日志文件。

      采集目录/dmidecode.txt

      主机侧日志

      dmesg

      主机侧内核消息类文件。

      采集目录/dmesg

      sysmonitor.log

      主机侧系统监测类文件。

      采集目录/sysmonitor.log

      messages-*?

      主机侧操作系统日志文件。

      采集目录/messages-*?

      vmcore_dmesg.txt

      系统崩溃时保存的Host侧内核消息日志文件。

      采集目录/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt

      Device侧日志

      device-os_{time}.log

      Device侧Control CPU上的系统类日志。

      采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log

      event_{time}.log

      Device侧Control CPU上的EVENT级别系统日志。

      支持Ascend HDK 23.0.3及以上版本:

      采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log

      device-{id}_{time}.log

      Device侧非Control CPU上的系统类日志。

      Ascend HDK 23.0.RC3版本:

      采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log

      Ascend HDK 23.0.3及以上版本:

      采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log

      history.log

      黑匣子日志。

      采集目录/device_log/hisi_logs/device-{id}/history.log

      MindCluster组件日志

      devicePlugin*.log

      超节点设备日志、Ascend Device Plugin组件日志。

      采集目录/dl_log/devicePlugin/devicePlugin*.log

      noded*.log

      AI服务器日志。

      采集目录/dl_log/noded/noded*.log

      runtime-run*.log

      Ascend Docker Runtime组件中的ascend-docker-runtime执行时产生的日志。

      采集目录/dl_log/ascend-docker-runtime/runtime-run*.log

      hook-run*.log

      Ascend Docker Runtime组件中的ascend-docker-hook执行时产生的日志。

      采集目录/dl_log/ascend-docker-runtime/

      hook-run*.log

      volcano-scheduler*.log

      Volcano组件中的volcano-scheduler组件日志。

      采集目录/dl_log/volcano-scheduler/

      volcano-scheduler*.log

      volcano-controller*.log

      Volcano组件中的volcano-controller组件日志。

      采集目录/dl_log/volcano-controller/

      volcano-controller*.log

      npu-exporter*.log

      NPU Exporter组件日志。

      采集目录/dl_log/npu-exporter/

      npu-exporter*.log

      MindIE组件日志

      mindie-{module}_{pid}_{datetime}.log

      MindIE ServerMindIE LLMMindIE SDMindIE RTMindIE TorchMindIE MSMindIE BenchmarkMindIE Client组件日志。

      采集目录/mindie/log/debug/mindie-{module}_{pid}_{datetime}.log

      AMCT组件日志

      amct_{framework}.log

      AMCT组件日志。

      采集目录/amct_log/amct_{framework}.log

      BMC日志

      带外所有.log文件

      一键收集所有带外日志。

      采集目录/dump_info/AppDump/*/*.log

      采集目录/dump_info/DeviceDump/*/*.log

      采集目录/dump_info/ LogDump/*/*.log

      采集目录/dump_info/AppDump/frudata/fruinfo.txt

      采集目录/dump_info/AppDump/chassis/mdb_info.log

      LCNE日志

      LCNE所有.log文件

      LCNE收集日志。

      采集目录/*/diagnostic_information/slot_1/tempdir/devm_bddrvadp.log

      采集目录/*/diag_display_info.txt

      采集目录/*/log.log

      采集目录/*/log_1_*.log

      MindIE Pod打屏日志

      {podname}.log

      MindIE Pod打屏日志

      采集目录/mindie/log/mindie_cluster_log/{podname}.log

  • 用户也可使用对应清洗命令的输入参数,分别输入对应日志目录进行清洗,各参数对应日志文件存储结构如下,清洗命令参数可参见表1
    |-- ${--process_log参数指定路径}
            |-- debug/plog/plog-{pid}_{time}.log
            |-- run/plog/plog-{pid}_{time}.log
            |-- debug/device-*/device-{pid}_{time}.log
            |-- run/device-*/device-{pid}_{time}.log
    
    |-- ${--device_log参数指定路径} 
            |-- slog/dev-os-*/debug/device-os/device-os_*.log
            |-- slog/dev-os-*/run/device-os/device-os_*.log
            |-- slog/dev-os-*/run/event/event_*.log      #仅Ascend HDK 23.0.3及以上版本显示此路径
            |-- slog/dev-os-*/device-*/device-*_*.log    #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下
            |-- slog/dev-os-*/debug/device-*/device-*_*.log   #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下
            |-- hisi_logs/device-*/history.log
            ....
    
    |-- ${--env_check参数指定路径} 
           |-- npu_info_before.txt 
           |-- npu_info_after.txt 
           |-- npu_smi_0_details.csv
            ...
           |-- npu_smi_0_details.csv
           |-- npu_0_details.csv
           ...
           |-- npu_7_details.csv
    
    |-- ${--train_log参数指定路径}  
           |-- rank-0.txt      
           ...
           |-- rank-7.txt  
     
    |-- ${--host_log参数指定路径}    
           |-- messages
           |-- crash
                  |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29)
                         |-- vmcore_dmesg.txt
           |-- dmesg 
           |-- sysmonitor.log   
    
    |-- ${--dl_log参数指定路径} 
           |-- devicePlugin/devicePlugin*.log
           |-- noded/noded*.log
           |-- ascend-docker-runtime/runtime-run*.log
           |-- ascend-docker-runtime/hook-run*.log
           |-- volcano-scheduler/volcano-scheduler*.log
           |-- volcano-controller/volcano-controller*.log
    
           |-- npu-exporter/npu-exporter*.log
    
    |-- ${--mindie_log参数指定路径} 
           |-- log/debug/mindie-{module}_{pid}_{datetime}.log
           |-- log/mindie_cluster_log/{podname}.log
    
    |-- ${--amct_log参数指定路径} 
           |-- amct_{framework}.log

    文件类型

    日志文件

    文件说明

    存储目录

    CANN应用类日志

    plog-{pid}_{time}.log

    Host侧应用类日志。

    • ${--process_log}/debug/plog/plog-{pid}_{time}.log
    • ${--process_log}/run/plog/plog-{pid}_{time}.log

    device-{pid}_{time}.log

    Device侧应用类日志。

    • ${--process_log}/debug/device-{id}/device-{pid}_{time}.log
    • ${--process_log}/run/device-{id}/device-{pid}_{time}.log

    用户训练及推理日志

    rank-{id}.txt

    rank-{id}.log

    worker-{id}.txt

    worker-{id}.log

    训练及推理打屏日志。

    • ${--train_log}/rank-id.*?.txt
    • ${--train_log}/rank-id.*?.log
    • ${--train_log}/worker-id.*?.log
    • ${--train_log}/worker-id.*?.txt

    NPU网口资源信息

    npu_info_before.txt

    训练前NPU网口检查。

    ${--env_check}/npu_info_before.txt

    npu_info_after.txt

    训练后NPU网口检查。

    ${--env_check}/npu_info_after.txt

    npu_smi_{npu_id}_details.csv

    NPU状态监测指标文件。

    ${--env_check}/npu_smi_{npu_id}_details.csv

    npu_{npu_id}_details.csv

    NPU网口统计监测指标文件。

    ${--env_check}/npu_{npu_id}_details.csv

    主机侧资源信息

    host_metrics_{core_num}.json

    主机资源监测指标文件。

    ${--env_check}/host_metrics_{core_num}.json

    主机侧日志

    messages-*?

    主机侧操作系统日志文件。

    ${--host_log}/messages-*?

    dmesg

    主机侧内核消息类文件。

    ${--host_log}/dmesg

    vmcore-dmesg.txt

    系统崩溃时保存的Host侧内核消息日志文件。

    ${--host_log}/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt

    sysmonitor.log

    主机侧系统监测类文件。

    ${--host_log}/sysmonitor.log

    Device侧日志

    device-os_{time}.log

    Device侧Control CPU上的系统类日志。

    ${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log

    event_{time}.log

    Device侧Control CPU上的EVENT级别系统日志。

    支持Ascend HDK 23.0.3及以上版本:

    ${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log

    device-id_{time}.log

    Device侧非Control CPU上的系统类日志。

    Ascend HDK 23.0.RC3版本:

    ${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log

    Ascend HDK 23.0.3及以上版本:

    ${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log

    history.log

    黑匣子日志。

    ${--device_log}/hisi_logs/device-{id}/history.log

    MindCluster组件日志

    devicePlugin*.log

    超节点设备日志、Ascend Device Plugin组件日志。

    ${--dl_log}/devicePlugin/devicePlugin*.log

    noded*.log

    AI服务器日志。

    ${--dl_log}/noded/noded*.log

    runtime-run*.log

    Ascend Docker Runtime组件中的ascend-docker-runtime执行时产生的日志。

    ${--dl_log}/ascend-docker-runtime/runtime-run*.log

    hook-run*.log

    Ascend Docker Runtime组件中的ascend-docker-hook执行时产生的日志。

    ${--dl_log}/ascend-docker-runtime/

    hook-run*.log

    volcano-scheduler*.log

    Volcano组件中的volcano-scheduler组件日志。

    ${--dl_log}/volcano-scheduler/

    volcano-scheduler*.log

    volcano-controller*.log

    Volcano组件中的volcano-controller组件日志。

    ${--dl_log}/volcano-controller/

    volcano-controller*.log

    npu-exporter*.log

    NPU Exporter组件日志。

    ${--dl_log}/npu-exporter/

    npu-exporter*.log

    MindIE组件日志

    mindie-{module}_{pid}_{datetime}.log

    MindIE ServerMindIE LLMMindIE SDMindIE RTMindIE TorchMindIE MSMindIE BenchmarkMindIE Client组件日志。

    ${--mindie_log}/log/debug/mindie-{module}_{pid}_{datetime}.log

    MindIE Pod打屏日志

    {podname}.log

    MindIE Pod打屏日志

    ${--mindie_log}/log/mindie_cluster_log/{podname}.log

    AMCT组件日志

    amct_{framework}.log

    AMCT组件日志。

    ${--amct_log}/amct_{framework}.log