昇腾社区首页
中文
注册

超节点故障诊断

  1. 创建超节点诊断结果输出目录。
    mkdir 超节点诊断结果输出目录
  2. 按照如下示例放置超节点故障诊断清洗结果。
    超节点诊断结果输出目录/
    ├── bmc
    │   ├── bmc_xxx.xx.xx.xx4_1
    │   │   ├── ascend-kg-analyzer.json
    │   │   ├── ascend-kg-parser.json
    │   │   └── server-info.json
    │   └── bmc_xxx.xx.xx.xx5_1
    │       ├── ascend-kg-analyzer.json
    │       ├── ascend-kg-parser.json
    │       └── server-info.json
    ├── host
    │   ├── log_collect_node-29-121_20250616
    │   │   ├── ascend-kg-analyzer.json
    │   │   ├── ascend-kg-parser.json
    │   │   ├── ascend-rc-parser.json
    │   │   ├── plog-parser-9891-1.log
    │   │   └── server-info.json
    │   └── log_collect_node-29-124_20250616
    │       ├── ascend-kg-analyzer.json
    │       ├── ascend-kg-parser.json
    │       ├── ascend-rc-parser.json
    │       ├── device_ip_info.json
    │       ├── plog-parser-10802-1.log
    │       ├── plog-parser-1132-0.log
     
    │       └── server-info.json
    └── lcne
        ├── xxx.xx.xx.xx6
        │   ├── ascend-kg-analyzer.json
        │   ├── ascend-kg-parser.json
        │   └── server-info.json
        └── xxx.xx.xx.xx7
            ├── ascend-kg-analyzer.json
            ├── ascend-kg-parser.json
            └── server-info.json
  3. 执行命令开始进行诊断。
    超节点故障诊断默认返回故障事件模块的对应数据。
    ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录 -s super_pod

    诊断回显示例如下:

    The diag job starts. Please wait. Job id: [***], run log file is [***].
    +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
    |                                                                                   Ascend Fault-Diag Report                                                                  |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |   版本信息   |    类型    | 版本                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              | Fault-Diag | 7.1.RC1                                                                                                                                         |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 根因节点分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |  根因节点  | ['xxxxxxxxxxx']                                                                                             |
    |              |  现象描述  | 所有Plog中无超时信息,疑似存在进程异常退出或卡死的节点。                                                                                        |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 故障事件分析 |    类型    | 描述                                                                                                                                            |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |    说明    | 1. 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。失败信息可在diag_report.json中查询                                       |
    |              |            | 2. 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障                                                                                       |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    | 疑似根因故障 |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['LCNE:xxx.xx.xx.xx5']                                                                                                                          |
    |              |  故障名称  | 转发引擎模块功能失效                                                                                                                            |
    |              |  故障描述  | LANSWITCH芯片不稳定。                                                                                                                           |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    |              |   状态码   | ******                                                                                                                                          |
    |              |  故障分类  | 类别:Network 组件:Switch 模块:Chip                                                                                                              |
    |              |  故障设备  | ['LCNE:xxx.xx.xx.xx5']                                                                                                                          |
    |              |  故障名称  | 转发芯片端口降到1/2 lane故障                                                                                                                    |
    |              |  故障描述  | 转发芯片端口降到1/2 lane故障 L1<-->CPU。                                                                                                        |
    |              |  建议方案  | 1. 请联系华为工程师处理;                                                                                                                       |
    |              |  关键日志  | ******                                                                                                                                          |
    |              |            | ******                                                                                                                                          |
    +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+
    The diag job is complete.
  4. 诊断结果输出如下:
    fault_diag_result/
    ├── diag_report.json #诊断结果
    └── topo_info.json #超节点拓扑信息

针对此章节场景提供的参考示例,可参考超节点日志清洗及诊断脚本进行超节点日志批量解压,清洗及诊断。