本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。
采集目录 |-- messages # 主机侧操作系统日志 |-- dmesg # 主机侧内核消息日志 |-- crash |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29) |-- vmcore_dmesg.txt # 系统崩溃时保存的Host侧内核消息日志文件 |-- sysmonitor.log # 主机侧系统监测日志 |-- rank-0.txt # 训练及推理打屏日志 ... |-- rank-7.txt # 训练及推理打屏日志 |-- process_log # CANN应用侧原始日志,目录名需为process_log |-- device_log # Device侧日志,目录名需为device_log |-- dl_log # MindCluster组件日志,目录名需为dl_log |-- devicePlugin # Ascend Device Plugin组件日志 |-- noded # NodeD组件日志 |-- ascend-docker-runtime # Ascend Docker Runtime组件日志 |-- volcano-scheduler # Volcano中的volcano-scheduler组件日志 |-- volcano-controller # Volcano中的volcano-controller组件日志 |-- npu-exporter # NPU Exporter组件日志 |-- mindie # MindIE组件日志 |-- log |-- debug # MindIE组件运行日志 |-- security # MindIE组件审计日志 |-- amct_log # AMCT组件日志 |-- environment_check # NPU网口、状态信息、资源信息 |-- npu_smi_0_details.csv # NPU状态监测指标文件 ... |-- npu_smi_7_details.csv # NPU状态监测指标文件 |-- npu_0_details.csv # NPU网口统计监测指标文件 ... |-- npu_7_details.csv # NPU网口统计监测指标文件 |-- npu_info_before/after.txt # 训练及推理前或后NPU环境检查文件 |-- host_metrics_{core_num}.json # 主机资源监测指标文件
各目录中存放的日志文件请参见表1。
文件类型 |
日志文件 |
文件说明 |
存储目录 |
---|---|---|---|
CANN应用类日志 |
plog-{pid}_{time}.log |
Host侧应用类日志。 |
采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log |
device-{pid}_{time}.log |
Device侧应用类日志。 |
采集目录/process_log/debug或run/device-{id}/device-{pid}_{time}.log |
|
用户训练及推理日志 |
rank-{id}.txt rank-{id}.log worker-{id}.txt worker-{id}.log |
训练及推理打屏日志。 |
|
NPU网口资源信息 |
npu_info_before.txt |
训练及推理前NPU网口检查。 |
采集目录/environment_check/npu_info_before.txt |
npu_info_after.txt |
训练及推理后NPU网口检查。 |
采集目录/environment_check/npu_info_after.txt |
|
npu_smi_{npu_id}_details.csv |
NPU状态监测指标文件。 |
采集目录/environment_check/npu_smi_{npu_id}_details.csv |
|
npu_{npu_id}_details.csv |
NPU网口统计监测指标文件。 |
采集目录/environment_check/npu_{npu_id}_details.csv |
|
主机侧资源信息 |
host_metrics_{core_num}.json |
主机资源监测指标文件。 |
采集目录/environment_check/host_metrics_{core_num}.json |
主机侧日志 |
dmesg |
主机侧内核消息类文件。 |
采集目录/dmesg |
sysmonitor.log |
主机侧系统监测类文件。 |
采集目录/sysmonitor.log |
|
messages-*? |
主机侧操作系统日志文件。 |
采集目录/messages-*? |
|
vmcore_dmesg.txt |
系统崩溃时保存的Host侧内核消息日志文件。 |
采集目录/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt |
|
Device侧日志 |
device-os_{time}.log |
Device侧Control CPU上的系统类日志。 |
采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log |
event_{time}.log |
Device侧Control CPU上的EVENT级别系统日志。 |
支持Ascend HDK 23.0.3及以上版本: 采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log |
|
device-{id}_{time}.log |
Device侧非Control CPU上的系统类日志。 |
Ascend HDK 23.0.RC3版本: 采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log Ascend HDK 23.0.3及以上版本: 采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log |
|
history.log |
黑匣子日志。 |
采集目录/device_log/hisi_logs/device-{id}/history.log |
|
MindCluster组件日志 |
devicePlugin*.log |
超节点设备日志、Ascend Device Plugin组件日志。 |
采集目录/dl_log/devicePlugin/devicePlugin*.log |
noded*.log |
AI服务器日志。 |
采集目录/dl_log/noded/noded*.log |
|
runtime-run*.log |
Ascend Docker Runtime组件中的ascend-docker-runtime执行时产生的日志。 |
采集目录/dl_log/ascend-docker-runtime/runtime-run*.log |
|
hook-run*.log |
Ascend Docker Runtime组件中的ascend-docker-hook执行时产生的日志。 |
采集目录/dl_log/ascend-docker-runtime/ hook-run*.log |
|
volcano-scheduler*.log |
Volcano组件中的volcano-scheduler组件日志。 |
采集目录/dl_log/volcano-scheduler/ volcano-scheduler*.log |
|
volcano-controller*.log |
Volcano组件中的volcano-controller组件日志。 |
采集目录/dl_log/volcano-controller/ volcano-controller*.log |
|
npu-exporter*.log |
NPU Exporter组件日志。 |
采集目录/dl_log/npu-exporter/ npu-exporter*.log |
|
MindIE组件日志 |
mindie-{module}_{pid}_{datetime}.log |
MindIE Server、MindIE LLM、MindIE SD、MindIE RT、MindIE Torch、MindIE MS、MindIE Benchmark、MindIE Client组件日志。 |
采集目录/mindie/log/debug/mindie-{module}_{pid}_{datetime}.log |
AMCT组件日志 |
amct_{framework}.log |
AMCT组件日志。 |
采集目录/amct_log/amct_{framework}.log |
|-- ${--process_log参数指定路径} |-- debug/plog/plog-{pid}_{time}.log |-- run/plog/plog-{pid}_{time}.log |-- debug/device-*/device-{pid}_{time}.log |-- run/device-*/device-{pid}_{time}.log |-- ${--device_log参数指定路径} |-- slog/dev-os-*/debug/device-os/device-os_*.log |-- slog/dev-os-*/run/device-os/device-os_*.log |-- slog/dev-os-*/run/event/event_*.log #仅Ascend HDK 23.0.3及以上版本显示此路径 |-- slog/dev-os-*/device-*/device-*_*.log #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下 |-- slog/dev-os-*/debug/device-*/device-*_*.log #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下 |-- hisi_logs/device-*/history.log .... |-- ${--env_check参数指定路径} |-- npu_info_before.txt |-- npu_info_after.txt |-- npu_smi_0_details.csv ... |-- npu_smi_0_details.csv |-- npu_0_details.csv ... |-- npu_7_details.csv |-- ${--train_log参数指定路径} |-- rank-0.txt ... |-- rank-7.txt |-- ${--host_log参数指定路径} |-- messages |-- crash |-- 主机+故障时间目录(eg:127.xx.xx.1-2024-09-23-11:25:29) |-- vmcore_dmesg.txt |-- dmesg |-- sysmonitor.log |-- ${--dl_log参数指定路径} |-- devicePlugin/devicePlugin*.log |-- noded/noded*.log |-- ascend-docker-runtime/runtime-run*.log |-- ascend-docker-runtime/hook-run*.log |-- volcano-scheduler/volcano-scheduler*.log |-- volcano-controller/volcano-controller*.log |-- npu-exporter/npu-exporter*.log |-- ${--mindie_log参数指定路径} |-- log/debug/mindie-{module}_{pid}_{datetime}.log |-- ${--amct_log参数指定路径} |-- amct_{framework}.log
文件类型 |
日志文件 |
文件说明 |
存储目录 |
---|---|---|---|
CANN应用类日志 |
plog-{pid}_{time}.log |
Host侧应用类日志。 |
|
device-{pid}_{time}.log |
Device侧应用类日志。 |
|
|
用户训练及推理日志 |
rank-{id}.txt rank-{id}.log worker-{id}.txt worker-{id}.log |
训练及推理打屏日志。 |
|
NPU网口资源信息 |
npu_info_before.txt |
训练前NPU网口检查。 |
${--env_check}/npu_info_before.txt |
npu_info_after.txt |
训练后NPU网口检查。 |
${--env_check}/npu_info_after.txt |
|
npu_smi_{npu_id}_details.csv |
NPU状态监测指标文件。 |
${--env_check}/npu_smi_{npu_id}_details.csv |
|
npu_{npu_id}_details.csv |
NPU网口统计监测指标文件。 |
${--env_check}/npu_{npu_id}_details.csv |
|
主机侧资源信息 |
host_metrics_{core_num}.json |
主机资源监测指标文件。 |
${--env_check}/host_metrics_{core_num}.json |
主机侧日志 |
messages-*? |
主机侧操作系统日志文件。 |
${--host_log}/messages-*? |
dmesg |
主机侧内核消息类文件。 |
${--host_log}/dmesg |
|
vmcore-dmesg.txt |
系统崩溃时保存的Host侧内核消息日志文件。 |
${--host_log}/crash/主机+故障时间目录(eg: 127.xx.xx.1-2024-09-23-11:25:29)/vmcore_dmesg.txt |
|
sysmonitor.log |
主机侧系统监测类文件。 |
${--host_log}/sysmonitor.log |
|
Device侧日志 |
device-os_{time}.log |
Device侧Control CPU上的系统类日志。 |
${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log |
event_{time}.log |
Device侧Control CPU上的EVENT级别系统日志。 |
支持Ascend HDK 23.0.3及以上版本: ${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log |
|
device-id_{time}.log |
Device侧非Control CPU上的系统类日志。 |
Ascend HDK 23.0.RC3版本: ${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log Ascend HDK 23.0.3及以上版本: ${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log |
|
history.log |
黑匣子日志。 |
${--device_log}/hisi_logs/device-{id}/history.log |
|
MindCluster组件日志 |
devicePlugin*.log |
超节点设备日志、Ascend Device Plugin组件日志。 |
${--dl_log}/devicePlugin/devicePlugin*.log |
noded*.log |
AI服务器日志。 |
${--dl_log}/noded/noded*.log |
|
runtime-run*.log |
Ascend Docker Runtime组件中的ascend-docker-runtime执行时产生的日志。 |
${--dl_log}/ascend-docker-runtime/runtime-run*.log |
|
hook-run*.log |
Ascend Docker Runtime组件中的ascend-docker-hook执行时产生的日志。 |
${--dl_log}/ascend-docker-runtime/ hook-run*.log |
|
volcano-scheduler*.log |
Volcano组件中的volcano-scheduler组件日志。 |
${--dl_log}/volcano-scheduler/ volcano-scheduler*.log |
|
volcano-controller*.log |
Volcano组件中的volcano-controller组件日志。 |
${--dl_log}/volcano-controller/ volcano-controller*.log |
|
npu-exporter*.log |
NPU Exporter组件日志。 |
${--dl_log}/npu-exporter/ npu-exporter*.log |
|
MindIE组件日志 |
mindie-{module}_{pid}_{datetime}.log |
MindIE Server、MindIE LLM、MindIE SD、MindIE RT、MindIE Torch、MindIE MS、MindIE Benchmark、MindIE Client组件日志。 |
${--mindie_log}/log/debug/mindie-{module}_{pid}_{datetime}.log |
AMCT组件日志 |
amct_{framework}.log |
AMCT组件日志。 |
${--amct_log}/amct_{framework}.log |