昇腾社区首页
中文
注册

整体方案

免责声明

  • 本文档可能包含第三方信息、产品、服务、软件、组件、数据或内容(统称“第三方内容”)。华为不控制且不对第三方内容承担任何责任,包括但不限于准确性、兼容性、可靠性、可用性、合法性、适当性、性能、不侵权、更新状态等,除非本文档另有明确说明。在本文档中提及或引用任何第三方内容不代表华为对第三方内容的认可或保证。
  • 本特性会读取并处理输入目录下用户采集的相关原日志及监测指标文件,请用户确保相关文件内无敏感信息和个人数据。华为不控制且不对输入数据内容承担任何责任。
  • 用户若需要第三方许可,须通过合法途径获取第三方许可,除非本文档另有明确说明。

方案介绍

智能故障诊断特性可用于解决集群训练任务故障定位定界困难的问题。由于集群日志量大、AI全栈日志分析复杂,同时也可能涉及计算、网络、存储的跨域问题分析,用户在集群训练任务中遇到的问题通常定位难度大、耗时长、需要拉通的领域多。智能故障诊断特性可以有效提高训练作业问题定位能力,提升用户使用意愿和促进产品生态拓展。

具体而言,本特性针对训练集群的各个设备提供日志清洗和故障诊断功能,用户需要完成日志采集、清洗并将清洗后的信息文件转储至特定路径进行诊断,通过分析诊断结果实现问题的快速定界。

智能故障诊断特性旨在昇腾训练场景下,为用户提供高效定位训练任务失败与训练性能劣化问题的能力。整体方案主要包含以下四个步骤:

  1. 日志采集:当发现训练任务失败或异常后,用户需收集每台训练设备的“用户训练日志”、“CANN应用类日志”、“主机侧资源信息”、“NPU网口资源信息”等数据,并按预设结构进行存储。
    • 用户训练日志指用户通过模型训练产生的打屏日志或重定向的日志文件。
    • CANN应用类日志指CANN软件自行记录的运行日志。
    • 主机侧资源信息指物理机相关的数据,例如CPU信息等。
    • NPU网口资源信息NPU相关的数据,例如收发报文统计信息等。
  2. 日志清洗:日志收集完成后,用户需在每台训练设备上使用Ascend FaultDiag工具的清洗功能对收集的原始日志及指标数据进行清洗,过滤并提取有效信息。
  3. 清洗结果转储:日志清洗完成后,用户需将每台训练设备的清洗结果转储汇总到同一台训练设备或通用设备,并按预设结果进行存储。
  4. 故障诊断:基于转储汇总的清洗结果,用户使用Ascend FaultDiag工具的诊断功能分析训练任务失败或异常的故障根因。

基于用户不同的应用场景,本特性提供了2种使用场景。

  • 全量应用场景:依赖于训练、CANN和主机侧资源以及硬件相关数据,采集内容较复杂,适用于AI集群运维平台用户进行复杂的任务诊断。
  • 基础应用场景:仅依赖训练日志与CANN日志,采集内容和方法简单,适用于个人用户进行基础训练任务诊断。

功能介绍

智能故障诊断特性Ascend FaultDiag组件主要功能如下:

清洗功能:支持“用户训练日志”、“CANN应用类日志”、“主机侧资源信息”、“NPU网口资源信息”等原始训练日志及监测指标清洗。当训练任务失败后,由Ascend FaultDiag组件对原日志和监测指标信息进行一系列清洗工作,清洗结果随原始信息一并转储到同一路径,为诊断任务提供数据支持。

诊断功能:支持根因节点分析、根因设备分析、设备资源分析、网络拥塞分析。

  • 训练任务异常退出问题:
    • 根因节点分析用于分析故障根因节点:根据集群通信hccl报错信息,定位引发错误的根因节点。
    • 根因设备分析用于分析故障根因节点所在设备的根因错误:根据故障知识图谱包含的故障模式,分析节点所在设备的问题。
  • 训练过程中性能劣化问题:
    • 设备资源分析用于分析设备的资源状态:通过分析用户采集的设备相关指标文件,定位计算降频与CPU资源抢占等问题。
    • 网络拥塞分析用于分析节点间的网络状态:通常用于定位SPINE+LEAF双层组网场景下的网络问题,通过分析用户采集的NPU网口统计监测指标文件,分析是否发生节点链路网络拥塞异常问题。

      仅当训练任务未异常退出的情况下,才会对性能劣化问题进行诊断。