查询到的Device数量与实际设备数量不匹配
适用场景
- 业务场景:环境检查
- 适用处理器:Atlas 200/300/500 推理产品、Atlas 推理系列产品、Atlas 训练系列产品
- 处理器形态:EP、RC
可能原因
根据查询信息分析,可能存在以下原因:
- 主机散热不好,导致PCIE标卡温度过高,设备进入过温保护状态。
- Device的主机侧中断数量不足,无法自动加载驱动。
- Device通信线路问题:
- Device硬件通信线路不通
- Device通信线路断链
处理步骤
针对上述可能原因,可以参考以下方法处理:
- 针对主机散热不好造成的Device异常,可以主机下电后再重新启动。
使用msnpureport工具导出并查看黑匣子日志,结合《黑匣子异常错误码列表》中LPM3页签的内容,确认是否存在温度过高造成的异常码。
- 使用dmesg命令查看打印信息,查看是否存在如下所示的日志信息。
如果存在类似日志信息,返回错误码-28(表示内核资源不足),可能为硬件环境MSI-X中断不足导致:
- 若安装昇腾AI处理器的主机为物理机,请查看硬件环境支持MSI-X中断的数量和BIOS配置,确保单芯片可申请116个中断。
- 若安装昇腾AI处理器的主机为虚拟机,请增加虚拟机的CPU配置。
[ 7.448019] devdrv_device_driver 0000:09:00.0: irq 503 for MSI/MSI-X [ 7.448024] devdrv_device_driver 0000:09:00.0: irq 504 for MSI/MSI-X [ 7.448030] devdrv_device_driver 0000:09:00.0: irq 505 for MSI/MSI-X [ 7.448036] devdrv_device_driver 0000:09:00.0: irq 506 for MSI/MSI-X [ 7.448042] devdrv_device_driver 0000:09:00.0: irq 507 for MSI/MSI-X [ 7.448124] [drv_pcie] [devdrv_init_interrupt_normal 377] <systemd-udevd:605:605> vector_num -28 [ 7.448140] [ERROR] [drv_pcie] [devdrv_init_interrupt_normal 382] <systemd-udevd:605:605> devdrv_device_driver: vector_num -28 error [ 7.448143] [ERROR] [drv_pcie] [devdrv_probe 768] <systemd-udevd:605:605> devdrv_device_driver, init interrupt failed. ret -1 [ 7.448374] devdrv_device_driver: probe of 0000:09:00.0 failed with error -1 [ 7.448387] [drv_pcie] [devdrv_probe 703] <systemd-udevd:605:605> probe driver IN. bdf:0a:00.0 [ 7.448551] [drv_pcie] [devdrv_set_startup_status 1404] <systemd-udevd:605:605> dev id -1 startup status init jiffies 4294674711 [ 7.448641] [drv_pcie] [devdrv_register_pci_devctrl 1263] <systemd-udevd:605:605> devdrv_device_driver, dev_id:2, bus:ffff8c1b39997c00 [ 7.448643] [drv_pcie] [drvdrv_dev_startup_record 248] <systemd-udevd:605:605> probe new dev 2, add to report,dev_num:3. [ 7.448644] [drv_pcie] [drvdrv_dev_startup_report 289] <systemd-udevd:605:605> dev startup no report id:2
- 使用lspci | grep d100 命令查询链接状态。
如图2,显示Device数量比实际数量少,原因为Device硬件通信线路不通。
如图3,显示Device有“ff”状态,原因为Device通信线路断链。
可能是PCIE标卡与主机接触不良,则下电后重新插拔板卡,再上电启动。
如果以上操作无法解决该异常现象,请联系技术支持处理。
父主题: 常见故障分析与处理