本章节介绍待清洗的目录结构组成,用户可参照以下内容进行日志收集,并按对应结构存储。
采集目录 |-- messages # 主机侧操作系统日志 |-- rank-0.txt # 训练打屏日志 ... |-- rank-7.txt # 训练打屏日志 |-- process_log # CANN应用侧原始日志,目录名需为process_log |-- device_log # Device侧日志,目录名需为device_log |-- environment_check # NPU网口、状态信息、资源信息 |-- npu_smi_0_details.csv # NPU状态监测指标文件 ... |-- npu_smi_7_details.csv # NPU状态监测指标文件 |-- npu_0_details.csv # NPU网口统计监测指标文件 ... |-- npu_7_details.csv # NPU网口统计监测指标文件 |-- npu_info_before/after.txt # 训练前或后NPU环境检查文件 |-- host_metrics_{core_num}.json # 主机资源监测指标文件
各目录中存放的日志文件请参见表1。
文件类型 |
日志文件 |
文件说明 |
存储目录 |
---|---|---|---|
CANN应用类日志 |
plog-{pid}_{time}.log |
HOST侧应用类日志。 |
采集目录/process_log/debug或run/plog/plog-{pid}_{time}.log |
device-{pid}_{time}.log |
Device侧应用类日志。 |
采集目录/process_log/debug或run/device-{id}/device-{pid}_{time}.log |
|
用户训练日志 |
.*?rank-{id}.*?.txt |
训练打屏日志。 |
采集目录/rank-{id}.*?.txt |
NPU网口资源信息 |
npu_info_before.txt |
训练前NPU网口检查。 |
采集目录/environment_check/npu_info_before.txt |
npu_info_after.txt |
训练后NPU网口检查。 |
采集目录/environment_check/npu_info_after.txt |
|
npu_smi_{npu_id}_details.csv |
NPU状态监测指标文件。 |
采集目录/environment_check/npu_smi_{npu_id}_details.csv |
|
npu_{npu_id_details.csv |
NPU网口统计监测指标文件。 |
采集目录/environment_check/npu_{npu_id}_details.csv |
|
主机侧资源信息 |
host_metrics_{core_num}.json |
主机资源监测指标文件。 |
采集目录/environment_check/host_metrics_{core_num}.json |
主机侧操作系统日志 |
messages.*? |
主机操作系统日志文件。 |
采集目录/messages.*? |
Device侧日志 |
device-os_{time}.log |
Device侧Control CPU上的系统类日志。 |
采集目录/device_log/slog/dev-os-{id}/debug或run/device-os/device-os_{time}.log |
event_{time}.log |
Device侧Control CPU上的EVENT级别系统日志。 |
支持Ascend HDK 23.0.3及以上版本: 采集目录/device_log/slog/dev-os-{id}/run/event/event_{time}.log |
|
device-{id}_{time}.log |
Device侧非Control CPU上的系统类日志。 |
Ascend HDK 23.0.RC3版本: 采集目录/device_log/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log Ascend HDK 23.0.3及以上版本: 采集目录/device_log/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log |
|
history.log |
黑匣子日志。 |
采集目录/device_log/hisi_logs/device-{id}/history.log |
|-- ${--process_log参数指定路径} |--debug/plog/plog-{pid}_{time}.log |--run/plog/plog-{pid}_{time}.log |--debug/device-*/device-{pid}_{time}.log |--run/device-*/device-{pid}_{time}.log |-- ${--device_log参数指定路径} |--slog/dev-os-*/debug/device-os/device-os_*.log |--slog/dev-os-*/run/device-os/device-os_*.log |--slog/dev-os-*/run/event/event_*.log #仅Ascend HDK 23.0.3及以上版本显示此路径 |--slog/dev-os-*/device-*/device-*_*.log #Ascend HDK 23.0.RC3版本device-*_*.log在此路径下 |--slog/dev-os-*/debug/device-*/device-*_*.log #Ascend HDK 23.0.3及以上版本device-*_*.log在此路径下 |--hisi_logs/device-*/history.log .... |-- ${--env_check参数指定路径} |-- npu_info_before.txt |-- npu_info_after.txt |-- npu_smi_0_details.csv ... |-- npu_smi_0_details.csv |-- npu_0_details.csv ... |-- npu_7_details.csv |-- ${--train_log参数指定路径} |-- rank-0.txt ... |-- rank-7.txt |-- ${--host_log参数指定路径} |-- messages
文件类型 |
日志文件 |
文件说明 |
存储目录 |
---|---|---|---|
CANN应用类日志 |
plog-{pid}_{time}.log |
HOST侧应用类日志。 |
|
device-{pid}_{time}.log |
Device侧应用类日志。 |
|
|
用户训练日志 |
.*?rank-id.*?.txt |
训练打屏日志。 |
${--train_log}/rank-id.*?.txt |
NPU网口资源信息 |
npu_info_before.txt |
训练前NPU网口检查。 |
${--env_check}/npu_info_before.txt |
npu_info_after.txt |
训练后NPU网口检查。 |
${--env_check}/npu_info_after.txt |
|
npu_smi_{npu_id}_details.csv |
NPU状态监测指标文件。 |
${--env_check}/npu_smi_{npu_id}_details.csv |
|
npu_{npu_id}_details.csv |
NPU网口统计监测指标文件。 |
${--env_check}/npu_{npu_id}_details.csv |
|
主机侧资源信息 |
host_metrics_{core_num}.json |
主机资源监测指标文件。 |
${--env_check}/host_metrics_{core_num}.json |
主机侧操作系统日志 |
messages.*? |
主机操作系统日志文件。 |
${--host_log}/messages.*? |
Device侧日志 |
device-os_{time}.log |
Device侧Control CPU上的系统类日志。 |
${--device_log}/slog/dev-os-{id}/debug/device-os/device-os_{time}.log |
event_{time}.log |
Device侧Control CPU上的EVENT级别系统日志。 |
支持Ascend HDK 23.0.3及以上版本: ${--device_log}/slog/dev-os-{id}/run/event/event_{time}.log |
|
device-id_{time}.log |
Device侧非Control CPU上的系统类日志。 |
Ascend HDK 23.0.RC3版本: ${--device_log}/slog/dev-os-{id}/device-{id}/device-{id}_{time}.log Ascend HDK 23.0.3及以上版本: ${--device_log}/slog/dev-os-{id}/debug/device-{id}/device-{id}_{time}.log |
|
history.log |
黑匣子日志。 |
${--device_log}/hisi_logs/device-{id}/history.log |