日志采集目录结构
本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。

- Ascend-fd parse输入目录的日志文件大小会影响执行清洗命令的效率,总文件大小应限制在5G以下,文件总数量不能超过1000000。
- CANN应用类日志的单个文件应限制在20MB以下。
- NPU状态监测指标文件、NPU网口统计监测指标文件、主机侧资源信息文件应限制在512MB以下。
- 用户训练及推理日志大小无限制,会默认只读最后1MB日志。
- Host OS系统日志当前支持messages、dmesg、vmcore_dmesg.txt和sysmonitor.log日志,其中单个文件的转储大小上限请限制在512MB以下;dmesg日志取最新的日志,最大100000行。
- process_log、environment_check、device_log、dl_log、mindie、amct_log位置不受约束,存放在采集目录下任意位置均可。
- 用户若在容器中进行训练及推理,请及时保存日志至宿主机,如用户训练及推理日志、CANN应用类日志。
- 训练及推理前或后NPU环境检查文件、NPU网口统计监测指标文件、NPU状态监测指标文件、主机侧资源信息、主机侧操作系统日志和Device侧日志、MindCluster组件日志、MindIE组件日志、AMCT组件日志请在宿主机上采集。
- Volcano组件中volcano-scheduler与volcano-controller触发转储后以gzip压缩的转储日志将不会被读取,采集时需确保相关日志都已在未转储的volcano-scheduler.log与volcano-controller.log中。
- 用户可将所有日志汇总至同一采集目录下进行清洗,待清洗相关文件目录结构示例如下。
采集目录 |-- messages # 主机侧操作系统日志 |-- dmesg # 主机侧内核消息日志 |-- crash |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29) |-- vmcore_dmesg.txt # 系统崩溃时保存的Host侧内核消息日志文件 |-- sysmonitor.log # 主机侧系统监测日志 |-- rank-0.txt # 训练及推理打屏日志 ... |-- rank-7.txt # 训练及推理打屏日志 |-- process_log # CANN应用侧原始日志,目录名需为process_log |-- device_log # Device侧日志,目录名需为device_log |-- dl_log # MindCluster组件日志,目录名需为dl_log |-- devicePlugin # Ascend Device Plugin组件日志 |-- noded # NodeD组件日志 |-- ascend-docker-runtime # Ascend Docker Runtime组件日志 |-- volcano-scheduler # Volcano中的volcano-scheduler组件日志 |-- volcano-controller # Volcano中的volcano-controller组件日志 |-- npu-exporter # NPU Exporter组件日志 |-- mindie # MindIE组件日志 |-- log |-- debug # MindIE组件运行日志 |-- security # MindIE组件审计日志 |-- amct_log # AMCT组件日志 |-- environment_check # NPU网口、状态信息、资源信息 |-- npu_smi_0_details.csv # NPU状态监测指标文件 ... |-- npu_smi_7_details.csv # NPU状态监测指标文件 |-- npu_0_details.csv # NPU网口统计监测指标文件 ... |-- npu_7_details.csv # NPU网口统计监测指标文件 |-- npu_info_before/after.txt # 训练及推理前或后NPU环境检查文件 |-- host_metrics_{core_num}.json # 主机资源监测指标文件
各目录中存放的日志文件请参见表1。
表1 日志文件列表 文件类型
日志文件
文件说明
存储目录
CANN应用类日志
plog-{pid}_{time}.log
Host侧应用类日志。
采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log
device-{pid}_{time}.log
Device侧应用类日志。
采集目录/process_log/debug或run/device-{id}/device-{pid}_{time}.log
用户训练及推理日志
rank-{id}.txt
rank-{id}.log
worker-{id}.txt
worker-{id}.log
训练及推理打屏日志。
- 采集目录/rank-{id}.*?.txt
- 采集目录/rank-{id}.*?.log
- 采集目录/worker-{id}.*?.log
- 采集目录/worker-{id}.*?.txt
NPU网口资源信息
npu_info_before.txt
训练及推理前NPU网口检查。
采集目录/environment_check/npu_info_before.txt
npu_info_after.txt
训练及推理后NPU网口检查。
采集目录/environment_check/npu_info_after.txt
npu_smi_{npu_id}_details.csv
NPU状态监测指标文件。
采集目录/environment_check/npu_smi_{npu_id}_details.csv
npu_{npu_id}_details.csv
NPU网口统计监测指标文件。
采集目录/environment_check/npu_{npu_id}_details.csv
主机侧资源信息
host_metrics_{core_num}.json
主机资源监测指标文件。
采集目录/environment_check/host_metrics_{core_num}.json
主机侧日志
dmesg
主机侧内核消息类文件。
采集目录/dmesg
sysmonitor.log
主机侧系统监测类文件。
采集目录/sysmonitor.log
messages-*?
主机侧操作系统日志文件。
采集目录/messages-*?
vmcore_dmesg.txt
系统崩溃时保存的Host侧内核消息日志文件。
采集目录/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt
Device侧日志
device-os_{time}.log
Device侧Control CPU上的系统类日志。
采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log
event_{time}.log
Device侧Control CPU上的EVENT级别系统日志。
支持Ascend HDK 23.0.3及以上版本:
采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log
device-{id}_{time}.log
Device侧非Control CPU上的系统类日志。
Ascend HDK 23.0.RC3版本:
采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log
Ascend HDK 23.0.3及以上版本:
采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log
history.log
黑匣子日志。
采集目录/device_log/hisi_logs/device-{id}/history.log
MindCluster组件日志
devicePlugin*.log
超节点设备日志、Ascend Device Plugin组件日志。
采集目录/dl_log/devicePlugin/devicePlugin*.log
noded*.log
AI服务器日志。
采集目录/dl_log/noded/noded*.log
runtime-run*.log
Ascend Docker Runtime组件中的ascend-docker-runtime执行时产生的日志。
采集目录/dl_log/ascend-docker-runtime/runtime-run*.log
hook-run*.log
Ascend Docker Runtime组件中的ascend-docker-hook执行时产生的日志。
采集目录/dl_log/ascend-docker-runtime/
hook-run*.log
volcano-scheduler*.log
Volcano组件中的volcano-scheduler组件日志。
采集目录/dl_log/volcano-scheduler/
volcano-scheduler*.log
volcano-controller*.log
Volcano组件中的volcano-controller组件日志。
采集目录/dl_log/volcano-controller/
volcano-controller*.log
npu-exporter*.log
NPU Exporter组件日志。
采集目录/dl_log/npu-exporter/
npu-exporter*.log
MindIE组件日志
mindie-{module}_{pid}_{datetime}.log
MindIE Server、MindIE LLM、MindIE SD、MindIE RT、MindIE Torch、MindIE MS、MindIE Benchmark、MindIE Client组件日志。
采集目录/mindie/log/debug/mindie-{module}_{pid}_{datetime}.log
AMCT组件日志
amct_{framework}.log
AMCT组件日志。
采集目录/amct_log/amct_{framework}.log
- 用户也可使用对应清洗命令的输入参数,分别输入对应日志目录进行清洗,各参数对应日志文件存储结构如下,清洗命令参数可参见表1。
|-- ${--process_log参数指定路径} |-- debug/plog/plog-{pid}_{time}.log |-- run/plog/plog-{pid}_{time}.log |-- debug/device-*/device-{pid}_{time}.log |-- run/device-*/device-{pid}_{time}.log |-- ${--device_log参数指定路径} |-- slog/dev-os-*/debug/device-os/device-os_*.log |-- slog/dev-os-*/run/device-os/device-os_*.log |-- slog/dev-os-*/run/event/event_*.log #仅Ascend HDK 23.0.3及以上版本显示此路径 |-- slog/dev-os-*/device-*/device-*_*.log #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下 |-- slog/dev-os-*/debug/device-*/device-*_*.log #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下 |-- hisi_logs/device-*/history.log .... |-- ${--env_check参数指定路径} |-- npu_info_before.txt |-- npu_info_after.txt |-- npu_smi_0_details.csv ... |-- npu_smi_0_details.csv |-- npu_0_details.csv ... |-- npu_7_details.csv |-- ${--train_log参数指定路径} |-- rank-0.txt ... |-- rank-7.txt |-- ${--host_log参数指定路径} |-- messages |-- crash |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29) |-- vmcore_dmesg.txt |-- dmesg |-- sysmonitor.log |-- ${--dl_log参数指定路径} |-- devicePlugin/devicePlugin*.log |-- noded/noded*.log |-- ascend-docker-runtime/runtime-run*.log |-- ascend-docker-runtime/hook-run*.log |-- volcano-scheduler/volcano-scheduler*.log |-- volcano-controller/volcano-controller*.log |-- npu-exporter/npu-exporter*.log |-- ${--mindie_log参数指定路径} |-- log/debug/mindie-{module}_{pid}_{datetime}.log |-- ${--amct_log参数指定路径} |-- amct_{framework}.log
文件类型
日志文件
文件说明
存储目录
CANN应用类日志
plog-{pid}_{time}.log
Host侧应用类日志。
- ${--process_log}/debug/plog/plog-{pid}_{time}.log
- ${--process_log}/run/plog/plog-{pid}_{time}.log
device-{pid}_{time}.log
Device侧应用类日志。
- ${--process_log}/debug/device-{id}/device-{pid}_{time}.log
- ${--process_log}/run/device-{id}/device-{pid}_{time}.log
用户训练及推理日志
rank-{id}.txt
rank-{id}.log
worker-{id}.txt
worker-{id}.log
训练及推理打屏日志。
- ${--train_log}/rank-id.*?.txt
- ${--train_log}/rank-id.*?.log
- ${--train_log}/worker-id.*?.log
- ${--train_log}/worker-id.*?.txt
NPU网口资源信息
npu_info_before.txt
训练前NPU网口检查。
${--env_check}/npu_info_before.txt
npu_info_after.txt
训练后NPU网口检查。
${--env_check}/npu_info_after.txt
npu_smi_{npu_id}_details.csv
NPU状态监测指标文件。
${--env_check}/npu_smi_{npu_id}_details.csv
npu_{npu_id}_details.csv
NPU网口统计监测指标文件。
${--env_check}/npu_{npu_id}_details.csv
主机侧资源信息
host_metrics_{core_num}.json
主机资源监测指标文件。
${--env_check}/host_metrics_{core_num}.json
主机侧日志
messages-*?
主机侧操作系统日志文件。
${--host_log}/messages-*?
dmesg
主机侧内核消息类文件。
${--host_log}/dmesg
vmcore-dmesg.txt
系统崩溃时保存的Host侧内核消息日志文件。
${--host_log}/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt
sysmonitor.log
主机侧系统监测类文件。
${--host_log}/sysmonitor.log
Device侧日志
device-os_{time}.log
Device侧Control CPU上的系统类日志。
${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log
event_{time}.log
Device侧Control CPU上的EVENT级别系统日志。
支持Ascend HDK 23.0.3及以上版本:
${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log
device-id_{time}.log
Device侧非Control CPU上的系统类日志。
Ascend HDK 23.0.RC3版本:
${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log
Ascend HDK 23.0.3及以上版本:
${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log
history.log
黑匣子日志。
${--device_log}/hisi_logs/device-{id}/history.log
MindCluster组件日志
devicePlugin*.log
超节点设备日志、Ascend Device Plugin组件日志。
${--dl_log}/devicePlugin/devicePlugin*.log
noded*.log
AI服务器日志。
${--dl_log}/noded/noded*.log
runtime-run*.log
Ascend Docker Runtime组件中的ascend-docker-runtime执行时产生的日志。
${--dl_log}/ascend-docker-runtime/runtime-run*.log
hook-run*.log
Ascend Docker Runtime组件中的ascend-docker-hook执行时产生的日志。
${--dl_log}/ascend-docker-runtime/
hook-run*.log
volcano-scheduler*.log
Volcano组件中的volcano-scheduler组件日志。
${--dl_log}/volcano-scheduler/
volcano-scheduler*.log
volcano-controller*.log
Volcano组件中的volcano-controller组件日志。
${--dl_log}/volcano-controller/
volcano-controller*.log
npu-exporter*.log
NPU Exporter组件日志。
${--dl_log}/npu-exporter/
npu-exporter*.log
MindIE组件日志
mindie-{module}_{pid}_{datetime}.log
MindIE Server、MindIE LLM、MindIE SD、MindIE RT、MindIE Torch、MindIE MS、MindIE Benchmark、MindIE Client组件日志。
${--mindie_log}/log/debug/mindie-{module}_{pid}_{datetime}.log
AMCT组件日志
amct_{framework}.log
AMCT组件日志。
${--amct_log}/amct_{framework}.log