快速上线

本章节主要向用户介绍基于Atlas 800 训练服务器(型号:9000)基于物理机和容器场景快速完成昇腾NPU(Neural-Network Processing Unit,神经网络处理器单元)驱动固件、CANN(Compute Architecture for Neural Networks,AI异构计算架构)软件、PyTorch深度学习框架的安装,实现训练任务的上线。

准备安装环境

下载软件

下载本软件即表示您同意华为企业业务最终用户许可协议(EULA)的条款和条件。

若用户需要查询昇腾软件版本配套关系,可单击链接进行查询。

表1 软件下载链接

软件类型

软件包名称和下载链接

驱动

单击软件包链接,下载软件包“Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run”

固件

单击软件包链接,下载软件包“Ascend-hdk-910-npu-firmware_7.0.0.5.242.run”

Toolkit(开发套件包)

单击软件包链接,下载软件包“Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run”

kernels(二进制算子包)

单击软件包链接,下载软件包“Ascend-cann-kernels-910_7.0.RC1_linux.run”

上传安装包并添加权限

  1. 将下载的安装包上传至服务器任意目录(以“/home”为例)。
  2. 给安装包添加权限。
    chmod +x Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run
    chmod +x Ascend-hdk-910-npu-firmware_7.0.0.5.242.run
    chmod +x Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run
    chmod +x Ascend-cann-kernels-910_7.0.RC1_linux.run

安装NPU驱动固件

执行uname -r命令查看操作系统内核版本:

表2 内核版本要求

host操作系统版本

软件包默认的host操作系统内核版本

安装方式

CentOS 7.6

4.14.0-115.el7a.0.1.aarch64

二进制安装

Ubuntu 20.04

5.4.0-26-generic

CentOS 8.2

4.18.0-193.el8.aarch64

源码编译安装

BC_Linux 7.6

4.19.25-200.el7.bclinux.aarch64

BC_Linux 7.7

4.19.25-203.e17.bclinux.aarch64

Kylin V10 SP1

4.19.90-17.ky10.aarch64

Kylin V10 SP2

4.19.90-24.4.v2101.ky10.aarch64

openEuler 20.03 LTS

4.19.90-2003.4.0.0036.oe1.aarch64

openEuler 22.03 LTS

5.10.0-60.18.0.50.oe2203.aarch64

UOS 1020e

4.19.90-2106.3.0.0095.up2.uel20.aarch64

# 安装NPU驱动 
./Ascend-hdk-910-npu-driver_23.0.rc3_linux-aarch64.run --full --install-for-all
# 安装NPU固件
./Ascend-hdk-910-npu-firmware_7.0.0.5.242.run --full
# 重启OS
reboot

物理机安装

  1. 安装依赖。

    安装依赖以Ubuntu 20.04为例,其他操作系统安装依赖方法请参见安装依赖
    # 安装OS依赖
    apt-get install -y gcc g++ make cmake zlib1g zlib1g-dev openssl libsqlite3-dev libssl-dev libffi-dev unzip pciutils net-tools libblas-dev gfortran libblas3 libopenblas-dev
    
    # 安装Python3依赖
    apt-get install -y python3-pip
    pip3 install --upgrade pip
    pip3 install attrs cython numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py

  2. 安装CANN。

    # 在/home目录下执行如下命令安装
    ./Ascend-cann-toolkit_7.0.RC1_linux-aarch64.run --install --install-for-all --quiet
    # 执行如下命令配置环境变量。若需要设置环境变量永久生效,可在~/.bashrc文件最后一行后面添加以下命令,执行source ~/.bashrc命令
    source /usr/local/Ascend/ascend-toolkit/set_env.sh
    
    # 训练场景下须安装二进制算子包,二进制算子包依赖CANN软件包Toolkit,执行安装时,当前环境需已安装配套版本的Toolkit,并使用同一用户安装,xxx表示昇腾处理器
    ./Ascend-cann-kernels-910_7.0.RC1_linux.run --install --install-for-all --quiet

  3. 安装PyTorch深度学习框架。

    # 安装PyTorch环境依赖
    pip3 install wheel typing_extensions
    
    # 安装PyTorch 
    # 安装torch包,以PyTorch 1.11.0为例
    wget https://download.pytorch.org/whl/torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl
    pip3 install torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl
    
    # 安装PyTorch插件torch_npu
    wget https://gitee.com/ascend/pytorch/releases/download/v5.0.rc3-pytorch1.11.0/torch_npu-1.11.0.post4-cp37-cp37m-linux_aarch64.whl
    pip3 install torch_npu-1.11.0.post4-cp37-cp37m-linux_aarch64.whl
    
    # 安装对应框架版本的torchvision,PyTorch 1.11.0需安装0.12.0版本,PyTorch 2.0.1版本需安装0.15.2版本,PyTorch 2.1.0版本需安装0.16.0版本
    pip3 install torchvision==0.12.0

  4. 参见安装APEX混合精度模块安装APEX混合精度模块。
  5. (可选)运行样例。

    软件安装完成后,可以运行模型样例验证环境是否可用。

    单击链接,单击“Download”获取Tiny ImageNet小型数据集(archive.zip)。若没有账号,请用户自行注册。

    在服务器任意目录下执行如下命令(以“/home”为例)。
    # 安装git工具
    apt-get install -y git
    
    # 获取模型脚本并进入“模型代码目录”
    git config --global http.sslVerify "false"
    git clone https://gitee.com/ascend/ModelZoo-PyTorch.git
    cd ModelZoo-PyTorch/PyTorch/contrib/cv/classification/MobileNetV3_large_100_for_PyTorch
    
    # 将数据集上传至当前目录(模型代码目录)并解压
    unzip archive.zip
    
    # 安装依赖
    pip3 install -r requirements.txt
    pip3 install git+https://github.com/rwightman/pytorch-image-models.git
    
    # 在当前目录(模型代码目录)执行如下命令运行训练脚本
    bash ./test/train_full_1p.sh --data_path=./tiny-imagenet-200
    # 用户可在模型训练过程中重新打开一个窗口,在“模型代码目录/test/output/0”目录下执行tail -f 日志文件名命令实时查看训练日志

容器安装

  1. 单击容器镜像链接,进入昇腾镜像仓库。
  2. 获取镜像。

    1. 登录AscendHub。如图1所示。
      图1 登录AscendHub
    2. 选择“镜像版本”页签,下载对应版本的容器镜像,单击“立即下载”。如图2所示。
      图2 下载容器镜像
    3. 弹出“镜像下载须知”弹窗,阅读并同意后,单击“立即下载”。如图3所示。
      图3 镜像下载须知
    4. 根据弹出的下载页面提示,复制获取权限命令,在宿主机上执行命令。
      图4 镜像下载
    5. 复制下载镜像命令,然后在宿主机执行命令拉取镜像。

  3. 选择“镜像概述”页签,根据概述中的操作步骤启动容器。