昇腾社区首页
中文
注册
开发者
下载

超节点故障诊断

超节点故障诊断中提供超节点拓扑信息非手动关联场景、超节点拓扑信息手动关联场景、缺失Host日志场景三种方式。

超节点拓扑信息非手动关联场景

使用-s super_pod进行诊断,要求BMC、Host、LCNE三类日志同时存在,不可缺失某一类日志。

  1. 创建超节点诊断结果输出目录。
    mkdir 超节点诊断结果输出目录
  2. 按照如下示例放置超节点故障诊断清洗结果。
    超节点清洗结果输出目录/
    ├── bmc
    │   ├── bmc_xxx.xx.xx.xx4_1
    │   │   ├── ascend-kg-analyzer.json
    │   │   ├── ascend-kg-parser.json
    │   │   └── server-info.json
    │   └── bmc_xxx.xx.xx.xx5_1
    │       ├── ascend-kg-analyzer.json
    │       ├── ascend-kg-parser.json
    │       └── server-info.json
    ├── host
    │   ├── log_collect_node-29-121_20250616
    │   │   ├── ascend-kg-analyzer.json
    │   │   ├── ascend-kg-parser.json
    │   │   ├── ascend-rc-parser.json
    │   │   ├── plog-parser-9891-1.log
    │   │   └── server-info.json
    │   └── log_collect_node-29-124_20250616
    │       ├── ascend-kg-analyzer.json
    │       ├── ascend-kg-parser.json
    │       ├── ascend-rc-parser.json
    │       ├── device_ip_info.json
    │       ├── plog-parser-10802-1.log
    │       ├── plog-parser-1132-0.log
     
    │       └── server-info.json
    └── lcne
        ├── xxx.xx.xx.xx6
        │   ├── ascend-kg-analyzer.json
        │   ├── ascend-kg-parser.json
        │   └── server-info.json
        └── xxx.xx.xx.xx7
            ├── ascend-kg-analyzer.json
            ├── ascend-kg-parser.json
            └── server-info.json
  3. 执行命令开始进行诊断。
    超节点故障诊断默认返回故障事件模块的对应数据。
    ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录 -s super_pod

    诊断回显示例如下:

    The diag job starts. Please wait. Job id: [***], run log file is [***].
    +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                                                   Ascend Fault-Diag Report                                                                  |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |   版本信息   |    类型    | 版本                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              | Fault-Diag | 7.2.RC1                                                                                                                                         |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['xxxxxxxxxxx']                                                                                             |
    |              |  现象描述  | 所有Plog中无超时信息,疑似存在进程异常退出或卡死的节点。                                                                                        |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 故障事件分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 1. 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。失败信息可在diag_report.json中查询                                       |
    |              |            | 2. 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障                                                                                       |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 疑似根因故障 |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['LCNE:xxx.xx.xx.xx5']                                                                                                                          |
    |              |  故障名称  | 转发引擎模块功能失效                                                                                                                            |
    |              |  故障描述  | LANSWITCH芯片不稳定。                                                                                                                           |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['LCNE:xxx.xx.xx.xx5']                                                                                                                          |
    |              |  故障名称  | 转发芯片端口降到1/2 lane故障                                                                                                                    |
    |              |  故障描述  | 转发芯片端口降到1/2 lane故障 L1<-->CPU。                                                                                                        |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    The diag job is complete.
  4. 诊断结果输出如下:
    fault_diag_result/
    ├── diag_report.json #诊断结果
    └── topo_info.json #超节点拓扑信息
  • 针对此章节场景提供的参考示例,可参考超节点日志清洗及诊断脚本进行超节点日志批量解压,清洗及诊断。
  • 日志级别配置较低时,会存在日志刷屏冲刷关键日志无法诊断的情况,涉及的环境变量包含ASCEND_GLOBAL_EVENT_ENABLE、HCCL_ENTRY_LOG_ENABLE、ASCEND_GLOBAL_LOG_LEVEL、ASCEND_MODULE_LOG_LEVEL。更多信息请参见《CANN 环境变量参考》中的“环境变量列表”章节

超节点拓扑信息手动关联场景

清洗时需手动关联BMC、Host、LCNE三类日志,将清洗结果汇总至同一目录中。

清洗示例如下所示。

ascend-fd parse --host_log parse_input/host/xxx.xx.xx.131/host_log/   --mindie_log parse_input/host/xxx.xx.xx.131/mindie/ --process_log parse_input/host/xxx.xx.xx.131/process_log/  --bmc_log parse_input/bmc/worker-104 --lcne_log parse_input/lcne/worker-204 -o 清洗结果输出目录/worker-1
ascend-fd parse --host_log parse_input/host/xxx.xx.xx.129/host_log/   --mindie_log parse_input/host/xxx.xx.xx.129/mindie/ --process_log parse_input/host/xxx.xx.xx.129/process_log/  --bmc_log parse_input/bmc/worker-102 --lcne_log parse_input/lcne/worker-202 -o 清洗结果输出目录/worker-2
ascend-fd parse --host_log parse_input/host/xxx.xx.xx.127/host_log/   --mindie_log parse_input/host/xxx.xx.xx.127/mindie/ --process_log parse_input/host/xxx.xx.xx.127/process_log/  --bmc_log parse_input/bmc/worker-100 --lcne_log parse_input/lcne/worker-200 -o 清洗结果输出目录/worker-3
ascend-fd parse --host_log parse_input/host/xxx.xx.xx.130/host_log/   --mindie_log parse_input/host/xxx.xx.xx.130/mindie/ --process_log parse_input/host/xxx.xx.xx.130/process_log/  --bmc_log parse_input/bmc/worker-103 --lcne_log parse_input/lcne/worker-203 -o 清洗结果输出目录/worker-4
ascend-fd parse --host_log parse_input/host/xxx.xx.xx.128/host_log/   --mindie_log parse_input/host/xxx.xx.xx.128/mindie/ --process_log parse_input/host/xxx.xx.xx.128/process_log/  --bmc_log parse_input/bmc/worker-101 --lcne_log parse_input/lcne/worker-201 -o 清洗结果输出目录/worker-5
  1. 按照如下示例放置超节点故障诊断清洗结果。
    超节点清洗结果输出目录/
    ├── worker-1
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   ├── ascend-rc-parser.json
    │   ├── device_ip_info.json
    │   ├── plog-parser-14121-1.log
    │   └── server-info.json
    ├── worker-2
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   ├── ascend-rc-parser.json
    │   ├── device_ip_info.json
    │   ├── plog-parser-14139-1.log
    │   └── server-info.json
    ├── worker-3
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   ├── ascend-rc-parser.json
    │   ├── device_ip_info.json
    │   ├── mindie-cluster-info.json
    │   ├── plog-parser-14160-1.log
    │   └── server-info.json
    ├── worker-4
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   ├── ascend-rc-parser.json
    │   ├── device_ip_info.json
    │   ├── plog-parser-14175-1.log
    │   └── server-info.json
    └── worker-5
        ├── ascend-kg-analyzer.json
        ├── ascend-kg-parser.json
        ├── ascend-rc-parser.json
        ├── device_ip_info.json
        ├── plog-parser-19333-1.log
        └── server-info.json
  2. 执行命令开始进行诊断。
    超节点故障诊断默认返回故障事件模块的对应数据。
    ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录

    诊断回显示例如下:

    The diag job starts. Please wait. Job id: [***], run log file is [***].
    +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                                        Ascend Fault-Diag Report                                                                             |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |   版本信息   |    类型    | 版本                                                                                                                                                                        |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              | Fault-Diag | 7.2.RC1                                                                                                                                         |
    |              |   Driver   | 25.2.0                                                                                                                                          |
    |              |  Firmware  | 7.7.0.3.220                                                                                                                                     |
    |              |  Toolkit   | 8.1.RC1                                                                                                                                         |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 根因节点分析检测出了多个的疑似故障根因节点,将优先排查这几个节点                                                                                |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx']                                                                |
    |              |  现象描述  | 所有有效节点的Plog都没有错误日志信息,无法定位根因节点。同时请确认是否为正常的任务?                                                            |
    |              |            | 此推理实例发生MindIE建链失败,请排查发生建链失败的节点。                                                                                        |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 故障事件分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 1. 关键传播链只展示每个故障设备最长的一条链路                                                                                                   |
    |              |            | 2. 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障                                                                                       |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 疑似根因故障 |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Network 模块:Network                                                                                                          |
    |              |  故障设备  | ['xxxxxx']                                                                                                                           |
    |              |  故障名称  | Link Down: NPU端闪断错误                                                                                                                        |
    |              |  故障描述  | 此服务器上某NPU网口发生Link Down闪断错误,且闪断时间超过30s。                                                                                   |
    |              |  建议方案  | 1. 请联系物理网络运维同事,收集交换机日志信息,并排查有无硬件问题(光模块是否在位、交换机链路是否闪断等);                                     |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    |              | 关键传播链 | ['xxxxxx']                                                                                                                                      |
    |              |            | Comp_Network_Custom_01(Link Down: NPU端闪断错误)-> 0x81078603(网口Link状态变化,Up->Down)                                                   |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    
    ============================
    实例名:xxx.xxx.xx8.201-xxx.xxx.xx2.204-xxx.xxx.8.183-xxx.xxx.x7.203
    节点名:['xxx.xxx.xx8.201', 'xxx.xxx.xx2.204', 'xxx.xxx.8.183', 'xxx.xxx.x7.203']
    +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                                     Ascend Fault-Diag Report                                                                                |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |   版本信息   |    类型    | 版本                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              | Fault-Diag | 7.2.RC1                                                                                                                                         |
    |              |   Driver   | 25.2.0                                                                                                                                          |
    |              |  Firmware  | 7.7.0.3.220                                                                                                                                     |
    |              |  Toolkit   | 8.1.RC1                                                                                                                                         |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 部分卡间存在等待关系,在“卡间等待链”中展示一条示例                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['xxxxxx']                                                                                                                                      |
    |              |  现象描述  | 训练/推理任务所使用的所有节点Plog报错算子下发建链超时,且最早报错节点与最晚报错节点间报错间隔未超过设置的超时时间(480s)。请优先排查相互等待或者等待关系末端的设备。                                                                                                                                                            |
    |              | 卡间等待链 | worker-2 device-0 -> worker-5 device-0                                                                                                          |
    |              |  首错节点  | worker-2 device-0: 2025-06-23-11:10:41.730228                                                                                                   |
    |              |  尾错节点  | worker-3 device-6: 2025-06-23-11:10:44.883255                                                                                                   |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 故障事件分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 疑似根因故障 |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['worker-2']                                                                                                                                    |
    |              |  故障名称  | 转发引擎整体功能失效                                                                                                                            |
    |              |  故障描述  | 转发芯片内部致命故障。                                                                                                                          |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Software 组件:MindIE 模块:LLM                                                                                                              |
    |              |  故障设备  | ['xxxxxx']                                                                                                                                      |
    |              |  故障名称  | BackendConfig配置参数校验失败                                                                                                                   |
    |              |  故障描述  | 配置参数不合法。                                                                                                                                |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    The diag job is complete.
  3. 诊断结果输出如下:
    fault_diag_result/
    ├── diag_report_xxx.xxx.xx8.201-xxx.xxx.xx2.204-xxx.xxx.8.183-xxx.xxx.x7.203.json #诊断结果1
    └── diag_report_xxx.xxx.xx7.11.json #诊断结果2

缺失Host日志场景

缺失Host日志时,需要将BMC、LCNE清洗结果存放至同一目录下。以下示例为仅有lcne日志的诊断场景。

  1. 创建超节点诊断结果输出目录。
    mkdir 超节点诊断结果输出目录
  2. 按照如下示例放置超节点故障诊断清洗结果。
    超节点清洗结果输出目录/lcne/
    ├── worker-200
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   └── server-info.json
    ├── worker-201
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   └── server-info.json
    ├── worker-202
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   └── server-info.json
    ├── worker-203
    │   ├── ascend-kg-analyzer.json
    │   ├── ascend-kg-parser.json
    │   └── server-info.json
    └── worker-204
        ├── ascend-kg-analyzer.json
        ├── ascend-kg-parser.json
        └── server-info.json
  3. 执行命令开始进行诊断。
    超节点故障诊断默认返回故障事件模块的对应数据。
    ascend-fd diag -i 诊断输入目录/lcne -o 诊断结果输出目录

    诊断回显示例如下:

    The diag job starts. Please wait. Job id: [***], run log file is [***].
    +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                                      Ascend Fault-Diag Report                                                                               |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |   版本信息   |    类型    | 版本                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              | Fault-Diag | 7.2.RC1                                                                                                                                         |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 未诊断出根因节点,故障事件分析将尝试检测全部设备                                                                                                |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['Unknown Device']                                                                                                                              |
    |              |  现象描述  | 未查找到有效的Plog文件,无法定位根因节点。请确认是否存在Plog文件?                                                                              |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 故障事件分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 疑似根因故障 |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx']                                                                                              |
    |              |  故障名称  | 转发芯片端口降到1/2 lane故障                                                                                                                    |
    |              |  故障描述  | 转发芯片端口降到1/2 lane故障 L1<-->CPU。                                                                                                        |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['xxxxxx', 'xxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx']                                                                                               |
    |              |  故障名称  | 转发芯片端口down故障                                                                                                                            |
    |              |  故障描述  | 转发芯片端口down故障 L1<-->CPU。                                                                                                                |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx']                                                                                              |
    |              |  故障名称  | 转发引擎局部功能失效                                                                                                                            |
    |              |  故障描述  | 转发芯片配置错误告警。                                                                                                                          |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx']                                                                                              |
    |              |  故障名称  | 转发引擎模块功能失效                                                                                                                            |
    |              |  故障描述  | LANSWITCH芯片不稳定。                                                                                                                           |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxxx']                                                                                             |
    |              |  故障名称  | 转发引擎整体功能失效。                                                                                                                          |
    |              |  故障描述  | 转发芯片内部致命故障。                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    The diag job is complete.
  4. 诊断结果输出如下:
    fault_diag_result/
    └── diag_report.json #诊断结果