Atlas 300I A2 推理卡NPU直通虚拟机后npu-smi查询报错
问题描述
Atlas 300I A2 推理卡NPU直通虚拟机后,虚拟机内执行npu-smi info命令显示少卡或报错-8005;关闭虚拟机后,在物理机执行npu-smi info查询,显示少卡或报错-8005,如图1所示。
可能原因
MCU固件版本过低,23.3.0以前版本(不包含23.3.0)的MCU固件不支持Atlas 300I A2 推理卡NPU直通虚拟机。
解决方案
id表示每张NPU卡的id,通过执行npu-smi info命令查询。
- 登录BMC,对服务器进行下电再上电,冷复位NPU卡。
- 在物理机下,安装HDK驱动,并查询MCU固件版本。
- 安装HDK驱动。请参见《Atlas A2 中心推理和训练硬件 25.3.RC1 NPU驱动和固件安装指南》的“安装驱动”章节。
- 执行如下命令,查询每张NPU卡的MCU固件版本。
npu-smi upgrade -b mcu -i {id}

- 若返回的MCU版本小于23.3.0,下载最新版本的MCU固件包,执行以下命令对每张NPU卡进行MCU固件升级。
npu-smi upgrade -t mcu -i {id} -f Ascend-hdk-xxx-mcu_{version}.hpm
npu-smi upgrade -a mcu -i {id}

Ascend-hdk-xxx-mcu_{version}.hpm为最新版本的MCU固件包。
- 查询每张NPU卡的MCU固件版本,确保其版本大于或等于23.3.0,执行以下命令重新启动虚拟机。
virsh start 虚拟机名称
父主题: FAQ
