本章节主要向用户介绍基于Atlas 800 训练服务器(型号:9000)基于物理机和容器场景快速完成昇腾NPU(Neural-Network Processing Unit,神经网络处理器单元)驱动固件、CANN(Compute Architecture for Neural Networks,AI异构计算架构)软件、PyTorch深度学习框架的安装,实现训练任务的上线。
下载本软件即表示您同意华为企业业务最终用户许可协议(EULA)的条款和条件。
若用户需要查询昇腾软件版本配套关系,可单击链接进行查询。
软件类型 |
软件包名称和下载链接 |
---|---|
驱动 |
单击软件包链接,下载软件包“Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run”。 |
固件 |
单击软件包链接,下载软件包“Ascend-hdk-910-npu-firmware_7.0.0.5.242.run”。 |
Toolkit(开发套件包) |
单击软件包链接,下载软件包“Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run”。 |
kernels(二进制算子包) |
单击软件包链接,下载软件包“Ascend-cann-kernels-910_7.0.RC1_linux.run”。 |
chmod +x Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run chmod +x Ascend-hdk-910-npu-firmware_7.0.0.5.242.run chmod +x Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run chmod +x Ascend-cann-kernels-910_7.0.RC1_linux.run
执行uname -r命令查看操作系统内核版本:
host操作系统版本 |
软件包默认的host操作系统内核版本 |
安装方式 |
---|---|---|
CentOS 7.6 |
4.14.0-115.el7a.0.1.aarch64 |
二进制安装 |
Ubuntu 20.04 |
5.4.0-26-generic |
|
CentOS 8.2 |
4.18.0-193.el8.aarch64 |
源码编译安装 |
BC_Linux 7.6 |
4.19.25-200.el7.bclinux.aarch64 |
|
BC_Linux 7.7 |
4.19.25-203.e17.bclinux.aarch64 |
|
Kylin V10 SP1 |
4.19.90-17.ky10.aarch64 |
|
Kylin V10 SP2 |
4.19.90-24.4.v2101.ky10.aarch64 |
|
openEuler 20.03 LTS |
4.19.90-2003.4.0.0036.oe1.aarch64 |
|
openEuler 22.03 LTS |
5.10.0-60.18.0.50.oe2203.aarch64 |
|
UOS 1020e |
4.19.90-2106.3.0.0095.up2.uel20.aarch64 |
# 安装NPU驱动 ./Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run --full --install-for-all # 安装NPU固件 ./Ascend-hdk-910-npu-firmware_7.0.0.5.242.run --full # 重启OS reboot
# 安装OS依赖 apt-get install -y gcc g++ make cmake zlib1g zlib1g-dev openssl libsqlite3-dev libssl-dev libffi-dev unzip pciutils net-tools libblas-dev gfortran libblas3 libopenblas-dev # 安装Python3依赖 apt-get install -y python3-pip pip3 install --upgrade pip pip3 install attrs cython numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py
# 在/home目录下执行如下命令安装 ./Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run --install --install-for-all --quiet # 执行如下命令配置环境变量。若需要设置环境变量永久生效,可在~/.bashrc文件最后一行后面添加以下命令,执行source ~/.bashrc命令 source /usr/local/Ascend/ascend-toolkit/set_env.sh # 训练场景下须安装二进制算子包,二进制算子包依赖CANN软件包Toolkit,执行安装时,当前环境需已安装配套版本的Toolkit,并使用同一用户安装,xxx表示昇腾处理器 ./Ascend-cann-kernels-910_7.0.RC1_linux.run --install --install-for-all --quiet
# 安装PyTorch环境依赖 pip3 install wheel typing_extensions # 安装PyTorch # 安装torch包,以PyTorch 1.11.0为例 wget https://download.pytorch.org/whl/torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl pip3 install torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl # 安装PyTorch插件torch_npu wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc3-pytorch1.11.0/torch_npu-1.11.0.post4-cp37-cp37m-linux_aarch64.whl pip3 install torch_npu-1.11.0.post4-cp37-cp37m-linux_aarch64.whl # 安装对应框架版本的torchvision,PyTorch 1.11.0需安装0.12.0版本,PyTorch 2.0.1版本需安装0.15.2版本,PyTorch 2.1.0版本需安装0.16.0版本 pip3 install torchvision==0.12.0
软件安装完成后,可以运行模型样例验证环境是否可用。
单击链接,单击“Download”获取Tiny ImageNet小型数据集(archive.zip)。若没有账号,请用户自行注册。
# 安装git工具 apt-get install -y git # 获取模型脚本并进入“模型代码目录” git config --global http.sslVerify "false" git clone https://gitee.com/ascend/ModelZoo-PyTorch.git cd ModelZoo-PyTorch/PyTorch/contrib/cv/classification/MobileNetV3_large_100_for_PyTorch # 将数据集上传至当前目录(模型代码目录)并解压 unzip archive.zip # 安装依赖 pip3 install -r requirements.txt pip3 install git+https://github.com/rwightman/pytorch-image-models.git # 在当前目录(模型代码目录)执行如下命令运行训练脚本 bash ./test/train_full_1p.sh --data_path=./tiny-imagenet-200 # 用户可在模型训练过程中重新打开一个窗口,在“模型代码目录/test/output/0”目录下执行tail -f 日志文件名命令实时查看训练日志