应用场景及方案
按照使用场景的不同,日志转储配置分为以下几种场景:
转储类型 |
适用场景 |
特点 |
---|---|---|
本地存储 |
无额外存储场景,日志存储至计算节点磁盘空间 |
|
共享存储转储 |
计算节点可直接访问共享存储 |
|
远端存储转储 |
计算节点未直接挂载远端存储,节点无法直接访问存储 |
本地存储场景
本地存储场景方案以图1为例,配置项主要包括:
- 本地存储路径预创建:在计算节点磁盘空间预先创建训练作业的日志存储路径。
- 训练任务日志采集配置:适配训练任务yaml文件和训练脚本,配置训练容器内各相关日志落盘路径以及宿主机磁盘空间挂载关系,拉起训练作业后,相关日志直接生成至指定路径。
- NPU Device侧日志采集配置:在宿主机磁盘空间采集NPU Device日志至指定路径。
共享/远端转储场景
共享/远端转储场景以图2为例,主要适用于配备存储的场景,相关日志先落盘在容器内或宿主机,再由平台能力转储至共享/远端存储。
- 本地存储路径预创建:在计算节点磁盘空间预先创建训练作业的日志存储路径。
- 训练任务日志采集配置:适配训练任务yaml文件和训练脚本,配置训练容器内各相关日志落盘路径以及宿主机磁盘空间挂载关系,拉起训练作业后,相关日志直接生成至指定路径。
- NPU Device侧日志采集配置:在宿主机磁盘空间采集NPU Device日志至指定路径。
- 日志转储:由平台能力将落盘在容器内或宿主机的日志,转储至共享/远端存储。

需要训练平台具备将日志转储到远端/共享存储的能力。
日志目录列表
上述场景中各日志文件落盘路径及日志产生源关系参考表1。
日志分类 |
日志文件 |
日志产生源 |
日志落盘源 |
落盘路径 |
---|---|---|---|---|
CANN日志文件 |
CANN应用类日志目录 |
CANN进程 |
容器内 |
/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_work_path/log |
CANN软件栈trace日志目录 |
CANN进程 |
容器内 |
/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_work_path/atrace |
|
CANN算子输入dump文件目录 |
CANN进程 |
容器内(可选) |
/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_work_path/extra-info/data-dump |
|
CANN算子编译缓存文件目录 |
CANN进程 |
容器内(可选) |
/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_cache_path |
|
训练日志 |
用户训练日志目录 |
训练进程 |
容器内 |
/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/train_log |
NPU日志 |
NPU环境检查文件目录 |
NPU环境检查采集进程 |
容器内(可选) |
/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/environment_check |
NPU Device侧日志目录 |
msnpureport或msnpureport_auto_export.sh采集进程 |
宿主机 |
/var/log/ascend_log/device_log |
|
OS日志 |
OS系统日志目录 |
容器内:OS日志采集进程 宿主机:OS系统进程 |
宿主机(可选) |
容器内:/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/host_log 宿主机:/var/log/messages或/var/log/syslog |

训练容器内产生的日志文件,和训练作业的生命周期相关,推荐按训练作业—计算节点—日志类型的结构存储。落盘路径中${JOB_NAME}、${NODE_NAME}分别表示训练作业名和计算节点名。