mkdir 单机诊断结果输出目录
ascend-fd single-diag -i 采集目录 -o 单机诊断结果输出目录
The single-diag job starts. Please wait. Job id: [****], run log file is [****]. +------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.0.RC1 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 1.诊断出多个故障,已按照发生时间排序,请优先排查靠前的故障。 | | | | 2.注:部分故障设备过多,仅展示16条。所有故障设备可在diag_report.json中查询。 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | xxx | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 故障设备 | ['worker-0 device-2'] | | | 故障名称 | Link Down: NPU端闪断错误 | | | 故障描述 | 此服务器上某NPU网口发生Link Down闪断错误,且闪断时间超过30s。 | | | 建议方案 | 1. 请联系物理网络运维同事,收集交换机日志信息,并排查有无硬件问题(光模块是否在位、交换机链路是否闪断等); | | | 关键日志 | /usr/local/Ascend/driver/tools/hccn_tool -i 2 -link_stat -g | | | | [devid 2]current time : Fri Sep 1 06:37:26 2023 | | | | [devid 2]link up count : 2 | | | | [devid 2]link change records : | | | | [devid 2] Fri Sep 1 06:34:43 2023 LINK DOWN | | | | [devid 2] Thu Aug 31 07:30:46 2023 LINK UP | | | | [devid 2] Thu Aug 31 07:30:44 2023 LINK DOWN | | | | [devid 2] Thu Aug 31 07:30:43 2023 LINK UP | | | 关键传播链 | ['worker-0'] | | | | 故障码1(Link Down: NPU端闪断错误)-> 故障码2(RDMA通信重传超次)-> 故障码3(notify wait超时) | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
一级参数 |
二级参数 |
说明 |
---|---|---|
故障事件分析 |
- |
用于分析故障根因节点所在设备的根因错误。 |
- |
状态码 |
|
- |
故障名称 |
具体的故障名称。 |
- |
故障分类 |
故障的类别及所在的组件和模块。 |
- |
故障设备 |
发生故障的设备。 |
- |
故障描述 |
针对该故障的详细描述或说明。 |
- |
建议方案 |
针对该故障的处理建议。 |
- |
关键日志 |
该故障对应的故障日志。 |
- |
关键传播链 |
展示该故障引发关系中最长的一条链路。 |
注:
|
单机诊断结果输出目录 ├── fault_diag_result ├── diag_report.json # 诊断结果