文档
注册
评分
提单
论坛
小AI

快速上线

本章节主要向用户介绍基于AI集群-Atlas 900 A2 PoDc 集群基础单元快速完成昇腾NPU(Neural-Network Processing Unit,神经网络处理器单元)驱动固件、CANN(Compute Architecture for Neural Networks,AI异构计算架构)软件、PyTorch深度学习框架的安装,实现训练任务的上线。

准备安装环境

  • 安装依赖前确保服务器能够连接外网,已配置可用的软件源和pip源。如果需要更换软件源可参考检查源,配置pip源可参考配置pip源
  • 安装驱动前需要创建驱动运行用户HwHiAiUser(运行驱动进程的用户),安装驱动时无需指定运行用户,默认即为HwHiAiUser。
    groupadd HwHiAiUser
    useradd -g HwHiAiUser -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash

下载软件

下载本软件即表示您同意华为企业业务最终用户许可协议(EULA)的条款和条件。

若用户需要查询昇腾软件版本配套关系,可单击链接进行查询。

表1 软件下载链接

软件类型

软件包名称和下载链接

驱动

单击软件包链接,下载软件包“Ascend-hdk-xxx-npu-driver_24.1.rc1_linux-aarch64.run”。

固件

单击软件包链接,下载软件包“Ascend-hdk-xxx-npu-firmware_7.1.0.6.220.run”。

Toolkit(开发套件包)

单击软件包链接,下载软件包“Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run”

kernels(二进制算子包)

单击软件包链接,下载软件包“Ascend-cann-kernels-xxx_8.0.RC1_linux.run”。

上传安装包并添加权限

  1. 将下载的安装包上传至服务器任意目录(以“/home”为例)。
  2. 给安装包添加权限。
    chmod +x Ascend-hdk-xxx-npu-driver_24.1.rc1_linux-aarch64.run
    chmod +x Ascend-hdk-xxx-npu-firmware_7.1.0.6.220.run
    chmod +x Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run
    chmod +x Ascend-cann-kernels-xxx_8.0.RC1_linux.run

安装NPU驱动固件

执行uname -r命令查看操作系统内核版本。

表2 内核版本要求

host操作系统版本

软件包默认的host操作系统内核版本

安装方式

Kylin V10 SP3

4.19.90-52.22.v2207.ky10.aarch64

源码编译安装。

  1. 需要先参见安装驱动源码编译所需依赖安装dkms等依赖。
  2. 再按照以下内容安装NPU驱动固件。

CUlinux 3.0

5.10.0-60.67.0.104.ule3.aarch64

CTyunOS 22.06

4.19.90-2102.2.0.0066.ctl2.aarch64

BC-Linux V21.10

4.19.90

UOS V20(1050u2e)

4.19.90-2211.5.0.0178.22.uel20.aarch64

源码编译安装。使用内核进行驱动编译。

执行ls /lib/modules/`uname -r`/build命令,查看路径是否存在,若存在,直接按照安装NPU驱动固件内容安装驱动固件。安装驱动包时则会自动使用内核进行驱动编译。

# 安装NPU驱动 
./Ascend-hdk-xxx-npu-driver_24.1.rc1_linux-aarch64.run --full --install-for-all
# 查看驱动加载是否成功,回显芯片信息表示加载成功
npu-smi info
# 安装NPU固件
./Ascend-hdk-xxx-npu-firmware_7.1.0.6.220.run --full
# 重启OS
reboot

物理机安装

  1. 安装依赖。
    安装依赖以Kylin V10 SP3为例,其他操作系统安装依赖方法请参见安装依赖
    # 安装OS依赖
    yum install -y gcc gcc-c++ make cmake unzip zlib-devel libffi-devel openssl-devel pciutils net-tools sqlite-devel lapack-devel gcc-gfortran
    
    # 检查Python版本是否满足要求,PyTorch框架支持Python3.7.x(3.7.5~3.7.11)、Python3.8.x(3.8.0~3.8.11)、Python3.9.x(3.9.0~3.9.2)。
    # 执行命令python3 --version,如果不符合PyTorch框架要求,请用户参见安装步骤(Kylin V10)中的步骤编译安装Python3.7.5
    
    # 安装Python3依赖
    yum install -y python3-pip
    pip3 install --upgrade pip
    pip3 install attrs cython numpy decorator sympy cffi pyyaml pathlib2 psutil protobuf scipy requests absl-py
  2. 安装CANN。
    # 在/home目录下执行如下命令安装
    ./Ascend-cann-toolkit_8.0.RC1_linux-aarch64.run --install --install-for-all --quiet
    
    # 执行如下命令配置环境变量。若需要设置环境变量永久生效,可在~/.bashrc文件最后一行后面添加以下命令,执行source ~/.bashrc命令
    source /usr/local/Ascend/ascend-toolkit/set_env.sh
    
    # 训练场景下须安装二进制算子包,二进制算子包依赖CANN软件包Toolkit,执行安装时,当前环境需已安装配套版本的Toolkit,并使用同一用户安装
    ./Ascend-cann-kernels-xxx_8.0.RC1_linux.run --install --install-for-all --quiet
  3. 安装PyTorch深度学习框架。
    # 安装PyTorch环境依赖
    pip3 install wheel typing_extensions
    
    # 安装PyTorch 
    # 安装torch包,以PyTorch 1.11.0为例
    wget https://download.pytorch.org/whl/torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl
    pip3 install torch-1.11.0-cp37-cp37m-manylinux2014_aarch64.whl
    
    # 安装PyTorch插件torch_npu
    wget https://gitee.com/ascend/pytorch/releases/download/v6.0.rc1-pytorch1.11.0/torch_npu-1.11.0.post11-cp37-cp37m-linux_aarch64.whl
    pip3 install torch_npu-1.11.0.post11-cp37-cp37m-linux_aarch64.whl
    
    # 安装对应框架版本的torchvision,PyTorch 1.11.0需安装0.12.0版本,PyTorch 2.2.0版本需安装0.17.0版本,PyTorch 2.1.0版本需安装0.16.0版本
    pip3 install torchvision==0.12.0
  4. 参见安装APEX混合精度模块安装APEX混合精度模块。

容器安装

  • AscendHub拉取容器镜像,请确保安装环境能够连接网络。
  • 请确保宿主机已安装Docker(可执行docker version查询)。若未安装,请参见部署Docker安装。
  1. 单击容器镜像链接,进入昇腾镜像仓库。
  2. 获取镜像。
    1. 登录AscendHub。如图1所示。
      图1 登录AscendHub
    2. 选择“镜像版本”页签,下载对应版本的容器镜像,单击“立即下载”。如图2所示。
      图2 下载容器镜像
    3. 弹出“镜像下载须知”弹窗,阅读并同意后,单击“立即下载”。如图3所示。
      图3 镜像下载须知
    4. 根据弹出的下载页面提示,复制获取权限命令,在宿主机上执行命令。
      图4 镜像下载
    5. 复制下载镜像命令,然后在宿主机执行命令拉取镜像。
      如果在下载镜像时,配置登录AscendHub权限回显类似以下报错,可按照以下方法解决。
      Error response from daemon: Get https://ascendhub.huawei.com/v2/: x509: certificate signed by unknown authority

      执行vi /etc/docker/daemon.json命令,在文件“insecure-registries”参数中加入AscendHub网址,如下加粗内容所示。

      {
              "registry-mirrors": ["http://docker.mirrors.ustc.edu.cn"],
              "insecure-registries": ["docker.mirrors.ustc.edu.cn", "ascendhub-registry.rnd.huawei.com", "registry.docker-cn.com", "ustc-edu-cn.mirror.aliyuncs.com","ascendhub.huawei.com"],
              "experimental" : true
      }
      添加内容后,执行以下命令重启Docker。
      systemctl daemon-reload 
      systemctl restart docker
  3. 选择“镜像概述”页签,根据概述中的操作步骤启动容器。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词