昇腾社区首页
中文
注册

简介

本文档是昇腾软硬件相关日志采集转储的参考指导文档,文档适用于训练平台部署阶段。用户可结合训练平台实际场景与本文档内容,配置转储训练作业相关日志。转储后日志可用于以下场景:

  • 对接日志收集工具,收集训练作业相关日志。
  • 训练失败后,开发者或运维人员人工定位问题、分析故障根因。
  • 对接故障诊断工具或其他日志分析平台,快速定界分析训练作业失败原因。

应用场景分类

基于用户不同的应用场景,本特性提供了如下几种使用场景。

  • 计算资源诊断场景:
    • 全量应用场景:依赖于训练、CANN和主机侧资源以及硬件相关数据,采集内容较复杂,适用于AI集群运维平台用户进行复杂的任务诊断。
    • 基础应用场景:仅依赖训练日志与CANN日志,采集内容和方法简单,适用于个人用户进行基础训练任务诊断。
  • 集群诊断场景:依赖于编译运行文件、训练日志、CANN日志和NPU日志,同时还采集计算、网络、存储各领域的告警、日志和KPI进行综合分析。适用于对执行失败的作业进行一键智能故障诊断定界。

存储场景分类

根据集群存储设备的不同,本文档主要针对以下几个场景提供详细转储方案:

  • 本地存储场景:该场景下,日志存储在各计算节点的宿主机磁盘空间。
  • 共享/远端转储场景:该场景下,日志先落盘在容器内或宿主机,再由平台能力转储至共享/远端存储。
    • 共享存储:所有计算节点挂载同一共享存储,计算节点可以直接访问存储目录。
    • 远端存储:计算节点和存储隔离,计算节点不可直接访问存储目录。该存储场景仅适用于计算资源诊断场景,在集群诊断场景下无此场景。

存储文件分类

训练作业涉及的昇腾软硬件相关日志文件主要包括用户训练日志、CANN应用类日志、CANN软件栈trace日志、NPU Device侧日志、OS系统日志、NPU环境检查文件、CANN算子输入dump文件、CANN算子文件等。详细日志说明请参考日志文件清单