单机故障诊断

  1. 创建单机诊断结果输出目录。

    mkdir 单机诊断结果输出目录

  2. 执行命令开始进行诊断。

    单机诊断默认返回故障事件模块的对应数据。
    ascend-fd single-diag -i 采集目录 -o 单机诊断结果输出目录 
    诊断训练任务异常退出问题,回显示例如下:
    The single-diag job starts. Please wait. Job id: [****], run log file is [****].
    +------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                                                       Ascend Fault-Diag Report                                                                                       |
    +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |   版本信息   |    类型    | 版本                                                                                                                                                                     |
    +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |              | Fault-Diag | 7.0.RC1                                                                                                                                                                    |
    +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    | 故障事件分析 |    类型    | 描述                                                                                                                                                                     |
    +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 1.诊断出多个故障,已按照发生时间排序,请优先排查靠前的故障。                                                                                                             |
    |              |            | 2.注:部分故障设备过多,仅展示16条。所有故障设备可在diag_report.json中查询。                                                                                             | 
    +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | xxx                                                                                                                                                                      |
    |              |  故障分类  | 类别:Network 组件:Network 模块:Network                                                                                                                                   |
    |              |  故障设备  | ['worker-0 device-2']                                                                                                                                                    |
    |              |  故障名称  | Link Down: NPU端闪断错误                                                                                                                                                 |
    |              |  故障描述  | 此服务器上某NPU网口发生Link Down闪断错误,且闪断时间超过30s。                                                                                                            |
    |              |  建议方案  | 1. 请联系物理网络运维同事,收集交换机日志信息,并排查有无硬件问题(光模块是否在位、交换机链路是否闪断等);                                                              |
    |              |  关键日志  | /usr/local/Ascend/driver/tools/hccn_tool -i 2 -link_stat -g                                                                                                              |
    |              |            | [devid 2]current time        : Fri Sep  1 06:37:26 2023                                                                                                                  |
    |              |            | [devid 2]link up count       : 2                                                                                                                                         |
    |              |            | [devid 2]link change records :                                                                                                                                           |
    |              |            | [devid 2]    Fri Sep  1 06:34:43 2023    LINK DOWN                                                                                                                       |
    |              |            | [devid 2]    Thu Aug 31 07:30:46 2023    LINK UP                                                                                                                         |
    |              |            | [devid 2]    Thu Aug 31 07:30:44 2023    LINK DOWN                                                                                                                       |
    |              |            | [devid 2]    Thu Aug 31 07:30:43 2023    LINK UP                                                                                                                         |
    |              | 关键传播链 | ['worker-0']                                                                                                                                                             |
    |              |            | 故障码1(Link Down: NPU端闪断错误)-> 故障码2(RDMA通信重传超次)-> 故障码3(notify wait超时)                                                                           |
    +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    The diag job is complete.
    回显的关键参数说明如下:
    表1 关键参数说明

    一级参数

    二级参数

    说明

    故障事件分析

    -

    用于分析故障根因节点所在设备的根因错误。

    -

    状态码

    • 当诊断出故障时,显示具体的故障码。
    • 当未诊断出故障时,显示NORMAL OR UNSUPPORTED。

    -

    故障名称

    具体的故障名称。

    -

    故障分类

    故障的类别及所在的组件和模块。

    -

    故障设备

    发生故障的设备。

    -

    故障描述

    针对该故障的详细描述或说明。

    -

    建议方案

    针对该故障的处理建议。

    -

    关键日志

    该故障对应的故障日志。

    -

    关键传播链

    展示该故障引发关系中最长的一条链路。

    注:

    • 单机诊断会扫描节点中所有有效日志的故障事件,若回显出现故障事件分析,表示当前故障可能导致训练或推理任务异常退出。
    完成诊断后,用户可根据单机诊断结果中的建议方案进行优化。
    单机诊断结果输出目录
    ├── fault_diag_result    
        ├── diag_report.json    # 诊断结果
    • 单机故障诊断执行出错时,“故障事件分析”回显中的说明(或分析失败)字段将会打印失败信息。如果想查看所有异常信息,可通过diag_report.json文件查看。