昇腾社区首页
中文
注册

应用场景及方案

按照使用场景的不同,日志转储配置分为以下几种场景:

转储类型

适用场景

特点

本地存储

无额外存储场景,日志存储至计算节点磁盘空间。

  • 日志直接配置落盘到本地存储,无额外转存,存在日志老化现象。
  • 宿主机磁盘空间较小,磁盘空间占满,可能会影响计算节点正常使用。需要及时清理较早训练作业的日志目录。

共享存储转储

计算节点可直接访问共享存储。

  • 日志直接配置落盘到共享存储,无额外转存,存在日志老化现象。

计算节点日志采集和目录配置

本地存储和共享存储的日志转储场景主要涉及配置单计算节点在训练过程中的日志文件采集以及目录配置。

图1 计算节点日志文件采集和目录配置

图中各日志文件落盘路径及日志产生源关系参考表1

表1 日志目录列表

日志分类

日志文件

日志产生源

日志落盘源

落盘路径

训练日志

用户训练日志目录

训练进程

容器内

/var/log/ascend_log/train_log

CANN日志文件

CANN应用类日志目录

CANN进程

容器内

/var/log/ascend_log/ascend_work_path/log

CANN软件栈trace日志目录

CANN进程

容器内

/var/log/ascend_log/ascend_work_path/atrace

CANN算子输入dump文件目录

CANN进程

容器内

/var/log/ascend_log/ascend_work_path/extra-info/data-dump

CANN算子编译缓存文件目录

CANN进程

容器内

/var/log/ascend_log/ascend_cache_path

NPU日志

NPU Device侧日志目录

msnpureport或msnpureport_auto_export.sh采集进程

宿主机

/var/log/ascend_log/device_log

OS日志

OS系统日志目录

OS系统进程

宿主机

/var/log/messages或/var/log/syslog

k8s拉起集群训练任务的场景,OS日志采集进程等可以配置在sidecar容器中。训练容器和sidecar容器挂载PoD内相同数据卷,日志目录在该数据卷中。

本地存储场景

本地存储场景方案以图2为例,配置项主要包括:

  • 本地存储路径预创建:参考存储路径预创建,在本地存储中预先创建相应训练作业的日志存储路径。
  • 配置训练任务yaml文件:通过训练任务yaml文件,配置训练容器内各相关日志落盘路径以及宿主机磁盘空间挂载关系,拉起训练作业后,相关日志直接生成至指定路径。
  • 采集NPU Device侧日志:在宿主机磁盘空间采集NPU Device日志至指定路径。
图2 本地存储场景日志转储

本地存储场景旨在指导用户对训练作业yaml配置进行调整,将容器内日志挂载至宿主机磁盘空间进行存储。

共享转储场景

共享转储场景主要适用于计算节点直接挂载到远端存储的场景,相关日志直接落盘到远端存储的磁盘空间。

总体的共享存储场景方案以图3为例,配置项主要包括:

  • 共享存储路径预创建:参考存储路径预创建,在共享存储中预先创建相应训练作业的日志存储路径。
  • 训练任务yaml文件配置:调整训练任务yaml文件,配置容器和共享存储目录映射关系。拉起训练作业后,相关日志直接生成至共享存储指定配置路径。
  • NPU Device侧日志采集:调整NPU Device日志采集进程的输出路径,直接采集落盘至共享存储。
图3 共享存储场景日志转储

共享存储场景旨在指导用户对训练作业yaml配置进行调整,将容器内日志挂载至共享存储指定路径。