快速上线
本章节主要向用户介绍基于AI集群-Atlas 900 A2 PoDc 集群基础单元快速完成昇腾NPU(Neural-Network Processing Unit,神经网络处理器单元)驱动固件、CANN(Compute Architecture for Neural Networks,AI异构计算架构)软件、PyTorch深度学习框架的安装,实现训练任务的上线。
准备安装环境
下载软件
上传安装包并添加权限
- 将下载的安装包上传至服务器任意目录(以“/home”为例)。
- 给安装包添加权限。
chmod +x Ascend-hdk-xxx-npu-driver_24.1.rc1_linux-aarch64.run chmod +x Ascend-hdk-xxx-npu-firmware_7.1.0.6.220.run chmod +x Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run chmod +x Ascend-cann-kernels-xxx_8.0.RC1_linux.run
安装NPU驱动固件
执行uname -r命令查看操作系统内核版本。
host操作系统版本 |
软件包默认的host操作系统内核版本 |
安装方式 |
---|---|---|
Kylin V10 SP3 |
4.19.90-52.22.v2207.ky10.aarch64 |
源码编译安装。
|
CUlinux 3.0 |
5.10.0-60.67.0.104.ule3.aarch64 |
|
CTyunOS 22.06 |
4.19.90-2102.2.0.0066.ctl2.aarch64 |
|
BC-Linux V21.10 |
4.19.90 |
|
UOS V20(1050u2e) |
4.19.90-2211.5.0.0178.22.uel20.aarch64 |
源码编译安装。使用内核进行驱动编译。 执行ls /lib/modules/`uname -r`/build命令,查看路径是否存在,若存在,直接按照安装NPU驱动固件内容安装驱动固件。安装驱动包时则会自动使用内核进行驱动编译。 |
# 安装NPU驱动 ./Ascend-hdk-xxx-npu-driver_24.1.rc1_linux-aarch64.run --full --install-for-all # 查看驱动加载是否成功,回显芯片信息表示加载成功 npu-smi info # 安装NPU固件 ./Ascend-hdk-xxx-npu-firmware_7.1.0.6.220.run --full # 重启OS reboot
物理机安装
- 安装依赖。安装依赖以Kylin V10 SP3为例,其他操作系统安装依赖方法请参见安装依赖。
# 安装OS依赖 yum install -y gcc gcc-c++ make cmake unzip zlib-devel libffi-devel openssl-devel pciutils net-tools sqlite-devel lapack-devel gcc-gfortran # 检查Python版本是否满足要求,PyTorch框架支持Python3.7.x(3.7.5~3.7.11)、Python3.8.x(3.8.0~3.8.11)、Python3.9.x(3.9.0~3.9.2)。 # 执行命令python3 --version,如果不符合PyTorch框架要求,请用户参见安装步骤(Kylin V10)中的步骤编译安装Python3.7.5 # 安装Python3依赖 yum install -y python3-pip pip3 install --upgrade pip pip3 install attrs cython numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py
- 安装CANN。
# 在/home目录下执行如下命令安装 ./Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run --install --install-for-all --quiet # 执行如下命令配置环境变量。若需要设置环境变量永久生效,可在~/.bashrc文件最后一行后面添加以下命令,执行source ~/.bashrc命令 source /usr/local/Ascend/ascend-toolkit/set_env.sh # 训练场景下须安装二进制算子包,二进制算子包依赖CANN软件包Toolkit,执行安装时,当前环境需已安装配套版本的Toolkit,并使用同一用户安装 ./Ascend-cann-kernels-xxx_8.0.RC1_linux.run --install --install-for-all --quiet
- 安装PyTorch深度学习框架。
# 安装PyTorch环境依赖 pip3 install wheel typing_extensions # 安装PyTorch # 安装torch包,以PyTorch 1.11.0为例 wget https://download.pytorch.org/whl/torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl pip3 install torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl # 安装PyTorch插件torch_npu wget https://gitee.com/ascend/pytorch/releases/download/v6.0.rc1-pytorch1.11.0/torch_npu-1.11.0.post11-cp37-cp37m-linux_aarch64.whl pip3 install torch_npu-1.11.0.post11-cp37-cp37m-linux_aarch64.whl # 安装对应框架版本的torchvision,PyTorch 1.11.0需安装0.12.0版本,PyTorch 2.2.0版本需安装0.17.0版本,PyTorch 2.1.0版本需安装0.16.0版本 pip3 install torchvision==0.12.0
- 参见安装APEX混合精度模块安装APEX混合精度模块。
容器安装
- 从AscendHub拉取容器镜像,请确保安装环境能够连接网络。
- 请确保宿主机已安装Docker(可执行docker version查询)。若未安装,请参见部署Docker安装。
- 单击容器镜像链接,进入昇腾镜像仓库。
- 获取镜像。
- 登录AscendHub。如图1所示。
- 选择“镜像版本”页签,下载对应版本的容器镜像,单击“立即下载”。如图2所示。
- 弹出“镜像下载须知”弹窗,阅读并同意后,单击“立即下载”。如图3所示。
- 根据弹出的下载页面提示,复制获取权限命令,在宿主机上执行命令。
图4 镜像下载
- 复制下载镜像命令,然后在宿主机执行命令拉取镜像。
如果在下载镜像时,配置登录AscendHub权限回显类似以下报错,可按照以下方法解决。
Error response from daemon: Get https://ascendhub.huawei.com/v2/: x509: certificate signed by unknown authority
执行vi /etc/docker/daemon.json命令,在文件“insecure-registries”参数中加入AscendHub网址,如下加粗内容所示。
{ "registry-mirrors": ["http://docker.mirrors.ustc.edu.cn"], "insecure-registries": ["docker.mirrors.ustc.edu.cn", "ascendhub-registry.rnd.huawei.com", "registry.docker-cn.com", "ustc-edu-cn.mirror.aliyuncs.com","ascendhub.huawei.com"], "experimental" : true }
添加内容后,执行以下命令重启Docker。systemctl daemon-reload systemctl restart docker
- 选择“镜像概述”页签,根据概述中的操作步骤启动容器。