物理机和容器部署场景,只需要在物理机安装NPU驱动固件;虚拟机部署场景,除了在物理机安装NPU驱动固件外,还需要在虚拟机安装NPU驱动。
在安装驱动固件前,建议按照以下检查项检查环境,确保驱动固件能正常安装。
检查项 |
检查方法 |
---|---|
检测Atlas 300I Pro 推理卡/Atlas 300V Pro 视频解析卡/Atlas 300V 视频解析卡是否正常在位 |
可通过命令行或BMC管理页面检测卡是否正常在位,如果执行命令时,提示没有安装lspci,可通过BMC管理页面检查。
|
检测Atlas 300I A2 推理卡是否正常在位 |
可通过命令行或BMC管理页面检测训练卡是否正常在位,如果执行命令时,提示没有安装lspci,可通过BMC管理页面检查。
|
在安装驱动前,需要用户确认现场操作系统和内核版本,从而确定是否需要安装驱动编译所需依赖。
uname -m && cat /etc/*release uname -r
host操作系统版本 |
host操作系统架构 |
软件包默认的host操作系统内核版本 |
gcc编译器版本 |
安装方式 |
---|---|---|---|---|
CentOS 7.6 |
aarch64 |
4.14.0-115.el7a.0.1.aarch64 |
4.8.5 |
二进制安装。 直接按照安装驱动固件内容安装驱动固件。 |
Ubuntu 18.04.1 |
aarch64 |
4.15.0-29-generic |
7.5.0 |
|
Ubuntu 20.04 |
aarch64 |
5.4.0-26-generic |
原生gcc(源自带gcc版本) |
|
Ubuntu 18.04.5 |
aarch64 |
4.15.0-112-generic |
7.5.0 |
源码编译安装。
|
openEuler 20.03 LTS |
aarch64 |
4.19.90-2003.4.0.0036.oe1.aarch64 |
7.3.0 |
|
openEuler 22.03 LTS |
aarch64 |
5.10.0-60.18.0.50.oe2203.aarch64 |
10.3.1 |
|
Kylin V10 SP1 |
aarch64 |
4.19.90-17.ky10.aarch64 |
7.3.0 |
|
Kylin V10 SP2 |
aarch64 |
4.19.90-24.4.v2101.ky10.aarch64 |
7.3.0 |
Atlas 300V Pro 视频解析卡不支持Kylin V10 SP2操作系统。
host操作系统版本 |
host操作系统架构 |
软件包默认的host操作系统内核版本 |
gcc编译器版本 |
安装方式 |
---|---|---|---|---|
Ubuntu 20.04 |
aarch64 |
5.4.0-26-generic |
原生gcc(源自带gcc版本) |
二进制安装。 直接按照安装驱动固件内容安装驱动固件。 |
openEuler 22.03 LTS |
aarch64 |
5.10.0-60.18.0.50.oe2203.aarch64 |
10.3.1 |
源码编译安装。
|
host操作系统版本 |
host操作系统架构 |
软件包默认的host操作系统内核版本 |
gcc编译器版本 |
安装方式 |
---|---|---|---|---|
Ubuntu 22.04 |
aarch64 |
5.15.0-25-generic |
原生gcc(源自带gcc版本) |
二进制安装。 直接按照安装驱动固件内容安装驱动固件。 |
Kylin V10 SP2 |
aarch64 |
4.19.90-24.4.v2101.ky10.aarch64 |
7.3.0 |
源码编译安装。
|
groupadd HwHiAiUser useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
若用户后续需使用从AscendHub拉取的容器镜像,则请用户执行如下命令创建uid和gid为1000的驱动运行用户HwHiAiUser。
groupadd -g 1000 HwHiAiUser useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash
若回显如下信息,请参见创建uid和gid为1000的驱动运行用户HwHiAiUser失败解决。
groupadd:GID '1000' already exists
chmod +x Ascend-hdk-xxx-npu-driver_23.0.rc3_linux-aarch64.run chmod +x Ascend-hdk-xxx-npu-firmware_7.0.0.5.242.run
chmod +x Ascend-hdk-xxx-npu-driver_23.0.rc3_linux-aarch64.run chmod +x Ascend-hdk-xxx-npu-firmware_6.4.0.4.220.run
./Ascend-hdk-xxx-npu-driver_23.0.rc3_linux-aarch64.run --full --install-for-all
./Ascend-hdk-xxx-npu-driver_23.0.rc3_linux-aarch64.run --full --install-for-all
若执行上述安装命令出现类似如下回显信息,请参见安装驱动固件报错解决。
[ERROR]The list of missing tools: lspci,ifconfig,
Driver package installed successfully!
./Ascend-hdk-xxx-npu-firmware_7.0.0.5.242.run --full
./Ascend-hdk-xxx-npu-firmware_6.4.0.4.220.run --full
若系统出现如下关键回显信息,表示固件安装成功。
Firmware package installed successfully! Reboot now or after driver installation for the installation/upgrade to take effect
MCU是推理卡带外管理模块,具备单板监测、故障上报等功能。出厂时推理卡已集成了初始版本,为了保障所有功能正常使用,请将MCU升级到配套版本。
本章内容主要介绍通过npu-smi工具升级MCU,npu-smi工具可以将单个推理卡的MCU升级到相应版本,如果配备了多个推理卡,需要逐个升级。
Card Count : 1 NPU ID : 8 Product Name : IT21DMPB01 Serial Number : 033EFS10M8000087 Chip Count : 4
npu-smi upgrade -t mcu -i NPU ID -f Ascend-hdk-xxx-mcu_23.2.2.hpm
npu-smi upgrade -t mcu -i NPU ID -f Ascend-hdk-xxx-mcu_23.2.8.hpm
出现类似如下回显表示升级成功。
Start upgrade [100]. Status : OK Message : The device upgrade is started successfully Message : need active mcu
npu-smi upgrade -a mcu -i NPU ID
Status : OK Message : The upgrade has taken effect after performed reboot successfully.
npu-smi upgrade -b mcu -i NPU ID
Version : 23.2.2
Version : 23.2.8