简介
本文档是昇腾软硬件相关日志采集转储的参考指导文档,文档适用于训练平台部署阶段。用户可结合训练平台实际场景与本文档内容,配置转储训练作业相关日志。转储后日志可用于以下场景:
- 对接日志收集工具,收集训练作业相关日志。
- 训练失败后,开发者或运维人员人工定位问题、分析故障根因。
- 对接故障诊断工具或其他日志分析平台,快速定界分析训练作业失败原因。
应用场景分类
基于用户不同的应用场景,本特性提供了如下几种使用场景。
- 计算资源诊断场景:
- 全量应用场景:依赖于训练、CANN和主机侧资源以及硬件相关数据,采集内容较复杂,适用于AI集群运维平台用户进行复杂的任务诊断。
- 基础应用场景:仅依赖训练日志与CANN日志,采集内容和方法简单,适用于个人用户进行基础训练任务诊断。
- 集群诊断场景:依赖于编译运行文件、训练日志、CANN日志和NPU日志,同时还采集计算、网络、存储各领域的告警、日志和KPI进行综合分析。适用于对执行失败的作业进行一键智能故障诊断定界。
存储场景分类
根据集群存储设备的不同,本文档主要针对以下几个场景提供详细转储方案:
- 本地存储场景:该场景下,日志存储在各计算节点的宿主机磁盘空间。
- 共享/远端转储场景:该场景下,日志先落盘在容器内或宿主机,再由平台能力转储至共享/远端存储。
- 共享存储:所有计算节点挂载同一共享存储,计算节点可以直接访问存储目录。
- 远端存储:计算节点和存储隔离,计算节点不可直接访问存储目录。该存储场景仅适用于计算资源诊断场景,在集群诊断场景下无此场景。
存储文件分类
训练作业涉及的昇腾软硬件相关日志文件主要包括用户训练日志、CANN应用类日志、CANN软件栈trace日志、NPU Device侧日志、OS系统日志、NPU环境检查文件、CANN算子输入dump文件、CANN算子文件等。详细日志说明请参考日志文件清单。
父主题: 日志转储方案参考