单机故障诊断
- 创建单机诊断结果输出目录。
mkdir 单机诊断结果输出目录
- 执行命令开始进行诊断。单机诊断默认返回故障事件模块的对应数据。
ascend-fd single-diag -i 采集目录 -o 单机诊断结果输出目录
诊断训练任务异常退出问题,回显示例如下:The single-diag job starts. Please wait. Job id: [****], run log file is [****]. +------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | Ascend Fault-Diag Report | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 版本信息 | 类型 | 版本 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | Fault-Diag | 7.1.RC1 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | 故障事件分析 | 类型 | 描述 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 说明 | 1.诊断出多个故障,已按照发生时间排序,请优先排查靠前的故障。 | | | | 2.注:部分故障设备过多,仅展示16条。所有故障设备可在diag_report.json中查询。 | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ | | 状态码 | xxx | | | 故障分类 | 类别:Network 组件:Network 模块:Network | | | 故障设备 | ['worker-0 device-2'] | | | 故障名称 | Link Down: NPU端闪断错误 | | | 故障描述 | 此服务器上某NPU网口发生Link Down闪断错误,且闪断时间超过30s。 | | | 建议方案 | 1. 请联系物理网络运维同事,收集交换机日志信息,并排查有无硬件问题(光模块是否在位、交换机链路是否闪断等); | | | 关键日志 | /usr/local/Ascend/driver/tools/hccn_tool -i 2 -link_stat -g | | | | [devid 2]current time : Fri Sep 1 06:37:26 2023 | | | | [devid 2]link up count : 2 | | | | [devid 2]link change records : | | | | [devid 2] Fri Sep 1 06:34:43 2023 LINK DOWN | | | | [devid 2] Thu Aug 31 07:30:46 2023 LINK UP | | | | [devid 2] Thu Aug 31 07:30:44 2023 LINK DOWN | | | | [devid 2] Thu Aug 31 07:30:43 2023 LINK UP | | | 关键传播链 | ['worker-0'] | | | | 故障码1(Link Down: NPU端闪断错误)-> 故障码2(RDMA通信重传超次)-> 故障码3(notify wait超时) | +--------------+------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------+ The diag job is complete.
回显的关键参数说明如下:表1 关键参数说明 一级参数
二级参数
说明
故障事件分析
-
用于分析故障根因节点所在设备的根因错误。
-
状态码
- 当诊断出故障时,显示具体的故障码。
- 当未诊断出故障时,显示NORMAL OR UNSUPPORTED。
-
故障名称
具体的故障名称。
-
故障分类
故障的类别及所在的组件和模块。
-
故障设备
发生故障的设备。
-
故障描述
针对该故障的详细描述或说明。
-
建议方案
针对该故障的处理建议。
-
关键日志
该故障对应的故障日志。
-
关键传播链
展示该故障引发关系中最长的一条链路。
注:
- 单机诊断会扫描节点中所有有效日志的故障事件,若回显出现故障事件分析,表示当前故障可能导致训练或推理任务异常退出。
完成诊断后,用户可根据单机诊断结果中的建议方案进行优化。单机诊断结果输出目录 ├── fault_diag_result ├── diag_report.json # 诊断结果
- 单机故障诊断执行出错时,“故障事件分析”回显中的说明(或分析失败)字段将会打印失败信息。如果想查看所有异常信息,可通过diag_report.json文件查看。
父主题: 使用指导