昇腾社区首页
中文
注册

应用场景及方案

按照使用场景的不同,日志转储配置分为以下几种场景:

转储类型

适用场景

特点

本地存储

无额外存储场景,日志存储至计算节点磁盘空间

  • 日志直接配置落盘到本地存储,无额外转存,存在日志老化现象
  • 宿主机磁盘空间较小,磁盘空间占满,可能会影响计算节点正常使用。需要及时清理较早训练作业的日志目录

共享存储转储

计算节点可直接访问共享存储

  • 先落盘在容器内或宿主机,再由平台能力转储至共享/远端存储
  • 日志上传速率,依赖传输带宽

远端存储转储

计算节点未直接挂载远端存储,节点无法直接访问存储

本地存储场景

本地存储场景方案以图1为例,配置项主要包括:

  • 本地存储路径预创建:在计算节点磁盘空间预先创建训练作业的日志存储路径。
  • 训练任务日志采集配置:适配训练任务yaml文件和训练脚本,配置训练容器内各相关日志落盘路径以及宿主机磁盘空间挂载关系,拉起训练作业后,相关日志直接生成至指定路径。
  • NPU Device侧日志采集配置:在宿主机磁盘空间采集NPU Device日志至指定路径。
图1 本地存储场景日志转储

共享/远端转储场景

共享/远端转储场景以图2为例,主要适用于配备存储的场景,相关日志先落盘在容器内或宿主机,再由平台能力转储至共享/远端存储。

  • 本地存储路径预创建:在计算节点磁盘空间预先创建训练作业的日志存储路径。
  • 训练任务日志采集配置:适配训练任务yaml文件和训练脚本,配置训练容器内各相关日志落盘路径以及宿主机磁盘空间挂载关系,拉起训练作业后,相关日志直接生成至指定路径。
  • NPU Device侧日志采集配置:在宿主机磁盘空间采集NPU Device日志至指定路径。
  • 日志转储:由平台能力将落盘在容器内或宿主机的日志,转储至共享/远端存储。
图2 共享/远端存储场景日志转储

需要训练平台具备将日志转储到远端/共享存储的能力。

日志目录列表

上述场景中各日志文件落盘路径及日志产生源关系参考表1

表1 日志目录列表

日志分类

日志文件

日志产生源

日志落盘源

落盘路径

CANN日志文件

CANN应用类日志目录

CANN进程

容器内

/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_work_path/log

CANN软件栈trace日志目录

CANN进程

容器内

/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_work_path/atrace

CANN算子输入dump文件目录

CANN进程

容器内(可选)

/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_work_path/extra-info/data-dump

CANN算子编译缓存文件目录

CANN进程

容器内(可选)

/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/ascend_cache_path

训练日志

用户训练日志目录

训练进程

容器内

/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/train_log

NPU日志

NPU环境检查文件目录

NPU环境检查采集进程

容器内(可选)

/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/environment_check

NPU Device侧日志目录

msnpureport或msnpureport_auto_export.sh采集进程

宿主机

/var/log/ascend_log/device_log

OS日志

OS系统日志目录

容器内:OS日志采集进程

宿主机:OS系统进程

宿主机(可选)

容器内:/var/log/ascend_log/${JOB_NAME}/${NODE_NAME}/host_log

宿主机:/var/log/messages或/var/log/syslog

训练容器内产生的日志文件,和训练作业的生命周期相关,推荐按训练作业—计算节点—日志类型的结构存储。落盘路径中${JOB_NAME}、${NODE_NAME}分别表示训练作业名和计算节点名。