昇腾故障案例详情页

Atlas 300I/V Pro卡执行npu-smi info命令异常

更新时间: 2024/02/22

暂无评分

问题信息

问题来源产品大类产品子类关键字
官方安装部署驱动固件Atlas 300I/V Pro、npu-smi info

问题现象描述

在安装Atlas 300I/V Pro板卡的服务器上,执行npu-smi info命令,提示如下错误。

原因分析

  • 若是裸机上执行报错,可能原因如下:
    • 驱动固件未正确安装。
    • 服务器内核在安装驱动后进行了升级。
    • 板卡硬件异常。
    • 安装驱动时未指定--install-for-all,执行命令时用的普通用户。
  • 若裸机执行npu-smi info正常,容器内执行报错,可能原因如下:
    • 未正确安装toolbox。
    • 启动docker时,未指定-e -ASCEND_VISIBLE_DEVICES参数进行芯片映射。
    • 同一颗芯片,被映射进不同的docker容器。

解决措施

  • 裸机npu-smi info异常
    1. 执行lspci | grep d500查询芯片硬件信息,正常显示如下信息。

      lspci查询异常,可能硬件存在异常,建议一键搜集ibmc日志,与硬件工程师一起分析异常。

    2. 执行lsmod | grep drv命令查询驱动包安装信息。

      若有回显,证明驱动安装正常;若无回显,说明驱动包安装异常。

    3. 执行msnpureport命令一键搜集驱动日志,搜集后进行分析。
    4. 裸机执行dmesg命令搜集相关日志,搜集后进行分析。
  • 裸机npu-smi info正常,容器内异常
    1. 排查toolbox安装是否正常,toolbox安装后是否重启docker。
    2. 排查docker启动命令是否进行芯片映射。
    3. 裸机执行dmesg,查看是否有如下报错,若存在,则说明芯片被映射到多个docker容器内。

本页内容

该页面对您有帮助吗?
我要评分