开发者
资源
Atlas 900 A2 PoDc 参数面网口闪断问题排查与解决方案

Atlas 900 A2 PoDc 参数面网口闪断问题排查与解决方案

物理链路

发表于: 2026/06/03

背景概述

在高密度AI训练集群的日常运维过程中,参数面网络的稳定性直接影响模型训练任务的连续性与整体系统可靠性。Atlas 900 A2 PoDc作为中心训练场景下的核心硬件平台,其NPU模块间的高速互联链路(200GE/400GE)对物理层质量要求极高。近期在多台设备运行过程中,陆续出现参数面网口频繁闪断现象,伴随BMC上报“NPU状态降级”告警(Error Code: 0x81078603),影响了训练任务的正常执行。本文基于实际故障排查过程,系统梳理链路闪断的典型特征、分析路径与标准化处理流程,为同类问题提供可复用的诊断与修复方案。

问题现象

  1. 设备类型:Atlas 900 A2 PoDc  
  2. 问题表现:设备现网运行时有多台设备共发生6个端口闪断。
  3. 告警信息:BMC上报“NPU状态降级”,错误码为 0x81078603
  4. 影响范围:影响实际业务运行。

故障排查流程

检查问题服务器的LinkDown状态,同时联合对端交换机侧日志,同步结合分析。

1. 检查历史闪断记录 link state(hccn_tool -i [deviceID] -link_stat -g),确定闪断发生的时间、device id和次数:4月16日12:01:52、device id 1、95/94次

2. 检查光模块的在位情况和收发光功率(hccn_tool -i [deviceID] -optical -g),present表示在位;收发光TX/RX power正常(和正常设备对比);Tx/Rx Los Flag均为0x0正常(正常情况下均为0x0,否则证明光模块状态异常)

3. 检查闪断对应的带内device日志(msnpurepoort -f 收集),搜索关键字rf_lf

  • rf_lf=2,则表示对端交换机检测到了异常,标记了local fault,并发送remote fault到服务器侧,需要根据收到 remote fault 的时间点,由交换机侧进行主导排查。若rf_lf=1,则表示本端local fault,是本端先发现的异常。由服务器侧进行主导排查此时检
  • pcs_err_cnt,即单lane的误码率,正常情况该值全为0,若大于50则表示有链路质量问题,需要检查物理链路,对光模块、光纤进行清洁。

4. 该次问题中,两个端口日志检查为rf_lf=2remote fault 。交换机侧的分析为RX接收方向lane1信号差,信噪差。

5. 该次问题中,四个端口日志检查为rf_lf=1local fault ,且pcs_err_cnt > 50。服务器侧分析物理链路有问题,可能有污染。

问题处理

物理链路交叉验证方法

  • 将网口link down的两点一线(服务器侧光模块、光纤、交换机侧光模块),与网口link up的两点一线做交换插拔,确保清污和插稳。
  • 若交换后问题恢复,两端口均link up,说明原先link down问题是连线不稳或有脏污。
  • 若交换后端口link down问题跟随交换的器件(光模块、光纤),则说明物理器件有问题,尝试换新后查看。
  • 若交换两点一线器件后端口link down问题跟随端口本身,则说明可能是内部问题,如服务器光口转接板故障。

物理链路污染问题解决方案:

1)先用清洁笔,擦拭光模块和光纤端面、使用端面检测仪检查是否正常,重新插稳。

2)重新插拔&清污后若仍然存在问题,则需要进行交叉验证,确认是否物理器件故障。

物理链路拓扑

交换机单板 → 400GE光模块 → 光纤 → 服务器200GE光模块 → ETH转接板 → NPU模组

故障根因与解决措施

根因分析

综合服务器侧与交换机侧日志分析,确认本次闪断的根本原因为:链路质量差,主要由光模块与光纤端面污染导致,引发误码率升高,触发链路异常。

解决方案

1. 优先执行端面清洁:对服务器侧与交换机侧的光模块及光纤端面进行全面清洁;

端面清洁操作(关键步骤)

  • 工具准备:专用清洁笔、端面检测仪、防静电手环;
  • 操作流程:

       1. 佩戴静电手环,断电后拔下光模块;

       2. 使用清洁笔沿同一方向轻柔擦拭光模块及光纤端面;

       3. 使用端面检测仪检查清洁效果,确保无颗粒、划痕或残留;

       4. 重新插拔,确保插紧到位。

       ⚠️ 注意:严禁使用酒精、纸巾等非专用工具,避免二次污染或损伤端面。

2. 交叉验证定位:若清洁后未恢复,按以下优先级执行交叉验证与备件更换:

  • 交叉200G/400G光模块 → 若故障跟随模块 → 更换光模块;
  • 交叉光纤 → 若故障跟随光纤 → 更换光纤;
  • 交叉后故障仍跟随原端口 → 更换服务器ETH转接板;
  • 若相邻端口均异常 → 更换交换机侧插口板。

总结与建议

  • 参数面网口闪断多由物理链路质量下降引发,端面污染是常见诱因;
  • 建议在日常维护中建立“定期清洁+交叉验证”机制,预防性排查链路隐患;
  • 所有操作务必佩戴静电手环,避免静电损伤;
  • 本方案已通过多例故障验证,具备高复用性与可操作性。

提示:在高密度互联场景下,物理层稳定性是系统可靠性的基石,建议将光模块与光纤端面清洁纳入标准运维SOP。

本页内容