超节点故障诊断
- 创建超节点诊断结果输出目录。
mkdir 超节点诊断结果输出目录
- 按照如下示例放置超节点故障诊断清洗结果。
超节点诊断结果输出目录/ ├── bmc │ ├── bmc_xxx.xx.xx.xx4_1 │ │ ├── ascend-kg-analyzer.json │ │ ├── ascend-kg-parser.json │ │ └── server-info.json │ └── bmc_xxx.xx.xx.xx5_1 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json ├── host │ ├── log_collect_node-29-121_20250616 │ │ ├── ascend-kg-analyzer.json │ │ ├── ascend-kg-parser.json │ │ ├── ascend-rc-parser.json │ │ ├── plog-parser-9891-1.log │ │ └── server-info.json │ └── log_collect_node-29-124_20250616 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ ├── ascend-rc-parser.json │ ├── device_ip_info.json │ ├── plog-parser-10802-1.log │ ├── plog-parser-1132-0.log │ └── server-info.json └── lcne ├── xxx.xx.xx.xx6 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json └── xxx.xx.xx.xx7 ├── ascend-kg-analyzer.json ├── ascend-kg-parser.json └── server-info.json
- 执行命令开始进行诊断。超节点故障诊断默认返回故障事件模块的对应数据。
ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录 -s super_pod
诊断回显示例如下:
The diag job starts. Please wait. Job id: [***], run log file is [***]. +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.1.RC1 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['xxxxxxxxxxx'] | | | 现象描述 | 所有Plog中无超时信息,疑似存在进程异常退出或卡死的节点。 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 1. 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。失败信息可在diag_report.json中查询 | | | | 2. 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 疑似根因故障 | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['LCNE:xxx.xx.xx.xx5'] | | | 故障名称 | 转发引擎模块功能失效 | | | 故障描述 | LANSWITCH芯片不稳定。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['LCNE:xxx.xx.xx.xx5'] | | | 故障名称 | 转发芯片端口降到1/2 lane故障 | | | 故障描述 | 转发芯片端口降到1/2 lane故障 L1<-->CPU。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
- 诊断结果输出如下:
fault_diag_result/ ├── diag_report.json #诊断结果 └── topo_info.json #超节点拓扑信息
父主题: 使用指导