昇腾社区首页
中文
注册
开发者
下载

Atlas 300I A2 推理卡NPU直通虚拟机后npu-smi查询报错

问题描述

Atlas 300I A2 推理卡NPU直通虚拟机后,虚拟机内执行npu-smi info命令显示少卡或报错-8005;关闭虚拟机后,在物理机执行npu-smi info查询,显示少卡或报错-8005,如图1所示。

图1 报错信息

可能原因

MCU固件版本过低,23.3.0以前版本(不包含23.3.0)的MCU固件不支持Atlas 300I A2 推理卡NPU直通虚拟机。

解决方案

id表示每张NPU卡的id,通过执行npu-smi info命令查询

  1. 登录BMC,对服务器进行下电再上电,冷复位NPU卡。
  2. 在物理机下,安装HDK驱动,并查询MCU固件版本。
    1. 安装HDK驱动。请参见《Atlas A2 中心推理和训练硬件 25.3.RC1 NPU驱动和固件安装指南》的“安装驱动”章节
    2. 执行如下命令,查询每张NPU卡的MCU固件版本。

      npu-smi upgrade -b mcu -i {id}

    3. 若返回的MCU版本小于23.3.0,下载最新版本的MCU固件包,执行以下命令对每张NPU卡进行MCU固件升级。

      npu-smi upgrade -t mcu -i {id} -f Ascend-hdk-xxx-mcu_{version}.hpm

      npu-smi upgrade -a mcu -i {id}

      Ascend-hdk-xxx-mcu_{version}.hpm为最新版本的MCU固件包。

  3. 查询每张NPU卡的MCU固件版本,确保其版本大于或等于23.3.0,执行以下命令重新启动虚拟机。

    virsh start 虚拟机名称