未按照升级指导顺序来升级导致驱动和固件版本不配套
2025/04/10
69
问题信息
问题来源 | 产品大类 | 产品子类 | 关键字 |
---|---|---|---|
现网 | 安装部署 | 驱动固件 | 版本、不配套 |
原因分析
Atlas 800 训练服务器(型号:9000)、Atlas 800 训练服务器(型号:9010)、Atlas 900 计算节点、Atlas 900T RAK 计算节点的驱动、固件安装后,执行“npu-smi info”命令无法获取到对应的设备信息,可能是升级时未按照升级指导顺序进行升级,导致驱动、固件版本不配套。可以通过下面的方式进行确认。
解决措施
确认系统安装的固件版本信息
获取指定设备的固件版本信息。
[root@localhost ~]# lspci | egrep "d100|d500|d801|d802" | awk '{print $1}' | xargs -i lspci -xxxx -s {} | grep 4e0 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00 4e0: 03 00 01 63 00 09 b3 03 00 09 b3 03 00 00 00 00

上面示例中,4e0地址的红色部分代表固件版本信息的第2、4、5位置映射信息,对应Cversion、Pversion、Bversion。Cversion为03,Pversion为00,Bversion为b309 ,则固件版本为x.3.x.0.b309,例如:7.3.3.0.b309。
确认系统安装的驱动版本信息
在软件包的安装路径下,例如root用户默认路径“/usr/local/Ascend/driver”,执行如下命令查看所升级软件包版本是否正确。
cat version.info
Version=25.0.rc1

上面示例中的版本信息是25.0.rc1版本。
上述操作显示驱动跟固件版本不配套,请按下述操作解决。
- 升级驱动版本到固件对应的版本。
- 重启Host系统。
- 升级目标固件版本。
- 升级目标驱动版本。
- 重启Host系统。