NPU Exporter组件的Pod状态为CrashLoopBackOff

问题现象描述

执行kubectl get pod -A -owide命令,发现NPU Exporter组件中部分Pod的状态为CrashLoopBackOff。

原因分析

如发生以上错误,可参考以下步骤进行错误排查。

  1. 执行以下命令查看日志报错。或查看日志/var/log/mindx-dl/npu-exporter/npu-exporter.log报deviceManager初始化错误,表示找不到NPU设备。

    kubectl logs -fn npu-exporter npu-exporter-8l7w2
    回显如下所示。
    [ERROR]    2024/10/28 08:50:46.650662 10      devmanager/devmanager.go:91    deviceManager init failed, prepare dcmi failed, err: dcmi init failed, error code: -8005
    [ERROR]    2024/10/28 08:50:46.652739 10      collector/npu_collector.go:467    new npu collector failed, error is auto init failed, err: get chip info failed, err: device Manager is nil, may encounter an exception during initialization. You can check the system log to confirm

  2. 执行npu-smi info命令报错:初始化失败,返回-8005错误。此问题发生的原因是升级NPU驱动与固件后未重启服务器。

    dcmi module initialize failed. ret is -8005

解决措施

查看/var/log/ascend_seclog/ascend_install.log日志,显示有固件升级。一般固件升级后,请根据相关提示进行重启。

如出现其他的CrashLoopBackOff状态,可通过执行步骤1查看上述日志进行定位。