昇腾社区首页
中文
注册

简介

MindCluster Ascend FaultDiag(故障诊断工具)主要功能如下:提供日志清洗和故障诊断功能,提取训练及推理过程相关日志的关键信息,并根据集群所有节点清洗后的关键信息,分析故障根因节点以及故障事件。

关键功能特性

故障诊断工具主要提供以下2大功能:

日志清洗

当训练及推理任务失败后,由MindCluster Ascend FaultDiag对原日志和监测指标信息进行一系列清洗工作,清洗结果随原始信息一并转储到同一路径,为诊断任务提供数据支持。

目前支持清洗的内容主要包括:用户训练及推理日志、CANN应用类日志、主机侧资源信息、NPU网口资源信息等原始训练、推理日志及监测指标清洗。

故障诊断

MindCluster Ascend FaultDiag针对下表中的2类问题提供诊断功能:支持根因节点分析、故障事件分析、设备资源分析、网络拥塞分析。

故障分类

诊断内容

训练及推理任务异常退出问题

  • 根因节点分析用于分析故障根因节点:根据集群通信HCCL报错信息,定位引发错误的根因节点。
  • 故障事件分析用于分析故障根因节点所在设备的根因错误:根据故障知识图谱包含的故障模式,分析节点所在设备的问题。

训练及推理过程中性能劣化问题

  • 设备资源分析用于分析设备的资源状态:通过分析用户采集的设备相关指标文件,定位计算降频与CPU资源抢占等问题。
  • 网络拥塞分析用于分析节点间的网络状态:通常用于定位Spine+Leaf双层组网场景下的网络问题,通过分析用户采集的NPU网口统计监测指标文件,分析是否发生节点链路网络拥塞异常问题。

说明:

仅当训练及推理任务未异常退出的情况下,才会对性能劣化问题进行诊断。

使用流程

MindCluster Ascend FaultDiag的使用流程如下表所示。

步骤

描述

操作参考

日志采集

当发现训练或推理任务失败或异常后,用户需收集每台训练或推理设备的日志,并按预设结构进行存储。

采集的日志请参见表1

请参见日志采集章节。

日志清洗

日志收集完成后,用户需在每台训练或推理设备上使用MindCluster Ascend FaultDiag工具的清洗功能对收集的原始日志及指标数据进行清洗,过滤并提取有效信息。

请参见日志清洗与转储章节。

清洗结果转储

日志清洗完成后,用户需将每台训练或推理设备的清洗结果转储汇总到同一台训练设备或通用设备,并按预设结构进行存储。

请参见日志清洗与转储章节。

故障诊断

基于转储汇总的清洗结果,用户使用MindCluster Ascend FaultDiag工具的诊断功能分析训练或推理任务失败或异常的故障根因。

请参见故障诊断章节。

说明

在以上使用流程中,日志采集和清洗结果转储非MindCluster Ascend FaultDiag提供的功能。本文档仅提供其操作指导。