超节点故障诊断
超节点故障诊断中提供超节点拓扑信息非手动关联场景、超节点拓扑信息手动关联场景、缺失Host日志场景三种方式。
- 超节点拓扑信息非手动关联场景下,暂不支持缺失BMC、Host、LCNE三类中任一类日志。
- 若缺失LCNE或BMC的某一类日志,请参考超节点拓扑信息手动关联场景。
- 若缺失Host日志,请参考缺失host日志场景将清洗输出结果存放至同一文件夹下进行诊断。
超节点拓扑信息非手动关联场景
使用-s super_pod进行诊断,要求BMC、Host、LCNE三类日志同时存在,不可缺失某一类日志。
- 创建超节点诊断结果输出目录。
mkdir 超节点诊断结果输出目录
- 按照如下示例放置超节点故障诊断清洗结果。
超节点清洗结果输出目录/ ├── bmc │ ├── bmc_xxx.xx.xx.xx4_1 │ │ ├── ascend-kg-analyzer.json │ │ ├── ascend-kg-parser.json │ │ └── server-info.json │ └── bmc_xxx.xx.xx.xx5_1 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json ├── host │ ├── log_collect_node-29-121_20250616 │ │ ├── ascend-kg-analyzer.json │ │ ├── ascend-kg-parser.json │ │ ├── ascend-rc-parser.json │ │ ├── plog-parser-9891-1.log │ │ └── server-info.json │ └── log_collect_node-29-124_20250616 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ ├── ascend-rc-parser.json │ ├── device_ip_info.json │ ├── plog-parser-10802-1.log │ ├── plog-parser-1132-0.log │ └── server-info.json └── lcne ├── xxx.xx.xx.xx6 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json └── xxx.xx.xx.xx7 ├── ascend-kg-analyzer.json ├── ascend-kg-parser.json └── server-info.json - 执行命令开始进行诊断。超节点故障诊断默认返回故障事件模块的对应数据。
ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录 -s super_pod
诊断回显示例如下:
The diag job starts. Please wait. Job id: [***], run log file is [***]. +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.2.RC1 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['xxxxxxxxxxx'] | | | 现象描述 | 所有Plog中无超时信息,疑似存在进程异常退出或卡死的节点。 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 1. 本分析模块下部分分析子项执行失败,诊断结果可能会受到影响从而不准确。失败信息可在diag_report.json中查询 | | | | 2. 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 疑似根因故障 | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['LCNE:xxx.xx.xx.xx5'] | | | 故障名称 | 转发引擎模块功能失效 | | | 故障描述 | LANSWITCH芯片不稳定。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['LCNE:xxx.xx.xx.xx5'] | | | 故障名称 | 转发芯片端口降到1/2 lane故障 | | | 故障描述 | 转发芯片端口降到1/2 lane故障 L1<-->CPU。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
- 诊断结果输出如下:
fault_diag_result/ ├── diag_report.json #诊断结果 └── topo_info.json #超节点拓扑信息
超节点拓扑信息手动关联场景
清洗时需手动关联BMC、Host、LCNE三类日志,将清洗结果汇总至同一目录中。
清洗示例如下所示。
ascend-fd parse --host_log parse_input/host/xxx.xx.xx.131/host_log/ --mindie_log parse_input/host/xxx.xx.xx.131/mindie/ --process_log parse_input/host/xxx.xx.xx.131/process_log/ --bmc_log parse_input/bmc/worker-104 --lcne_log parse_input/lcne/worker-204 -o 清洗结果输出目录/worker-1 ascend-fd parse --host_log parse_input/host/xxx.xx.xx.129/host_log/ --mindie_log parse_input/host/xxx.xx.xx.129/mindie/ --process_log parse_input/host/xxx.xx.xx.129/process_log/ --bmc_log parse_input/bmc/worker-102 --lcne_log parse_input/lcne/worker-202 -o 清洗结果输出目录/worker-2 ascend-fd parse --host_log parse_input/host/xxx.xx.xx.127/host_log/ --mindie_log parse_input/host/xxx.xx.xx.127/mindie/ --process_log parse_input/host/xxx.xx.xx.127/process_log/ --bmc_log parse_input/bmc/worker-100 --lcne_log parse_input/lcne/worker-200 -o 清洗结果输出目录/worker-3 ascend-fd parse --host_log parse_input/host/xxx.xx.xx.130/host_log/ --mindie_log parse_input/host/xxx.xx.xx.130/mindie/ --process_log parse_input/host/xxx.xx.xx.130/process_log/ --bmc_log parse_input/bmc/worker-103 --lcne_log parse_input/lcne/worker-203 -o 清洗结果输出目录/worker-4 ascend-fd parse --host_log parse_input/host/xxx.xx.xx.128/host_log/ --mindie_log parse_input/host/xxx.xx.xx.128/mindie/ --process_log parse_input/host/xxx.xx.xx.128/process_log/ --bmc_log parse_input/bmc/worker-101 --lcne_log parse_input/lcne/worker-201 -o 清洗结果输出目录/worker-5
- 按照如下示例放置超节点故障诊断清洗结果。
超节点清洗结果输出目录/ ├── worker-1 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ ├── ascend-rc-parser.json │ ├── device_ip_info.json │ ├── plog-parser-14121-1.log │ └── server-info.json ├── worker-2 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ ├── ascend-rc-parser.json │ ├── device_ip_info.json │ ├── plog-parser-14139-1.log │ └── server-info.json ├── worker-3 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ ├── ascend-rc-parser.json │ ├── device_ip_info.json │ ├── mindie-cluster-info.json │ ├── plog-parser-14160-1.log │ └── server-info.json ├── worker-4 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ ├── ascend-rc-parser.json │ ├── device_ip_info.json │ ├── plog-parser-14175-1.log │ └── server-info.json └── worker-5 ├── ascend-kg-analyzer.json ├── ascend-kg-parser.json ├── ascend-rc-parser.json ├── device_ip_info.json ├── plog-parser-19333-1.log └── server-info.json - 执行命令开始进行诊断。超节点故障诊断默认返回故障事件模块的对应数据。
ascend-fd diag -i 诊断输入目录 -o 诊断结果输出目录
诊断回显示例如下:
The diag job starts. Please wait. Job id: [***], run log file is [***]. +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.2.RC1 | | | Driver | 25.2.0 | | | Firmware | 7.7.0.3.220 | | | Toolkit | 8.1.RC1 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 根因节点分析检测出了多个的疑似故障根因节点,将优先排查这几个节点 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx'] | | | 现象描述 | 所有有效节点的Plog都没有错误日志信息,无法定位根因节点。同时请确认是否为正常的任务? | | | | 此推理实例发生MindIE建链失败,请排查发生建链失败的节点。 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 1. 关键传播链只展示每个故障设备最长的一条链路 | | | | 2. 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 疑似根因故障 | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 故障设备 | ['xxxxxx'] | | | 故障名称 | Link Down: NPU端闪断错误 | | | 故障描述 | 此服务器上某NPU网口发生Link Down闪断错误,且闪断时间超过30s。 | | | 建议方案 | 1. 请联系物理网络运维同事,收集交换机日志信息,并排查有无硬件问题(光模块是否在位、交换机链路是否闪断等); | | | 关键日志 | ****** | | | | ****** | | | | ****** | | | 关键传播链 | ['xxxxxx'] | | | | Comp_Network_Custom_01(Link Down: NPU端闪断错误)-> 0x81078603(网口Link状态变化,Up->Down) | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ ============================ 实例名:xxx.xxx.xx8.201-xxx.xxx.xx2.204-xxx.xxx.8.183-xxx.xxx.x7.203 节点名:['xxx.xxx.xx8.201', 'xxx.xxx.xx2.204', 'xxx.xxx.8.183', 'xxx.xxx.x7.203'] +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.2.RC1 | | | Driver | 25.2.0 | | | Firmware | 7.7.0.3.220 | | | Toolkit | 8.1.RC1 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 部分卡间存在等待关系,在“卡间等待链”中展示一条示例 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['xxxxxx'] | | | 现象描述 | 训练/推理任务所使用的所有节点Plog报错算子下发建链超时,且最早报错节点与最晚报错节点间报错间隔未超过设置的超时时间(480s)。请优先排查相互等待或者等待关系末端的设备。 | | | 卡间等待链 | worker-2 device-0 -> worker-5 device-0 | | | 首错节点 | worker-2 device-0: 2025-06-23-11:10:41.730228 | | | 尾错节点 | worker-3 device-6: 2025-06-23-11:10:44.883255 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 疑似根因故障 | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['worker-2'] | | | 故障名称 | 转发引擎整体功能失效 | | | 故障描述 | 转发芯片内部致命故障。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Software 组件:MindIE 模块:LLM | | | 故障设备 | ['xxxxxx'] | | | 故障名称 | BackendConfig配置参数校验失败 | | | 故障描述 | 配置参数不合法。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
- 诊断结果输出如下:
fault_diag_result/ ├── diag_report_xxx.xxx.xx8.201-xxx.xxx.xx2.204-xxx.xxx.8.183-xxx.xxx.x7.203.json #诊断结果1 └── diag_report_xxx.xxx.xx7.11.json #诊断结果2
缺失Host日志场景
缺失Host日志时,需要将BMC、LCNE清洗结果存放至同一目录下。以下示例为仅有lcne日志的诊断场景。
- 创建超节点诊断结果输出目录。
mkdir 超节点诊断结果输出目录
- 按照如下示例放置超节点故障诊断清洗结果。
超节点清洗结果输出目录/lcne/ ├── worker-200 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json ├── worker-201 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json ├── worker-202 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json ├── worker-203 │ ├── ascend-kg-analyzer.json │ ├── ascend-kg-parser.json │ └── server-info.json └── worker-204 ├── ascend-kg-analyzer.json ├── ascend-kg-parser.json └── server-info.json - 执行命令开始进行诊断。超节点故障诊断默认返回故障事件模块的对应数据。
ascend-fd diag -i 诊断输入目录/lcne -o 诊断结果输出目录
诊断回显示例如下:
The diag job starts. Please wait. Job id: [***], run log file is [***]. +-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.2.RC1 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 根因节点分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 未诊断出根因节点,故障事件分析将尝试检测全部设备 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 根因节点 | ['Unknown Device'] | | | 现象描述 | 未查找到有效的Plog文件,无法定位根因节点。请确认是否存在Plog文件? | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 诊断出多个故障,已按照优先级排序,请重点排查靠前的故障 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | 疑似根因故障 | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx'] | | | 故障名称 | 转发芯片端口降到1/2 lane故障 | | | 故障描述 | 转发芯片端口降到1/2 lane故障 L1<-->CPU。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['xxxxxx', 'xxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx'] | | | 故障名称 | 转发芯片端口down故障 | | | 故障描述 | 转发芯片端口down故障 L1<-->CPU。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx'] | | | 故障名称 | 转发引擎局部功能失效 | | | 故障描述 | 转发芯片配置错误告警。 | | | 建议方案 | 1. 请联系华为工程师处理; | | | 关键日志 | ****** | | | | ****** | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx'] | | | 故障名称 | 转发引擎模块功能失效 | | | 故障描述 | LANSWITCH芯片不稳定。 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | ****** | | | 故障分类 | 类别:Network 组件:Switch 模块:Chip | | | 故障设备 | ['xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxx', 'xxxxxxx'] | | | 故障名称 | 转发引擎整体功能失效。 | | | 故障描述 | 转发芯片内部致命故障。 | +--------------+------------+-------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
- 诊断结果输出如下:
fault_diag_result/ └── diag_report.json #诊断结果
父主题: 使用指导
