昇腾社区首页
中文
注册

支持下载的软件包和OS

使用MindCluster Ascend Deployer工具下载时,下载时注意事项参见下载注意事项,<OS>的取值范围参见支持的OS及架构,<PK>取值范围请参见表2

下载注意事项

  • 由于需要下载大量软件包,MindCluster Ascend Deployer工具默认开启并行下载功能,用户可以修改ascend_deployer/downloader/config.ini文件中的parallel_download字段,决定是否开启并行下载功能,1为开启,0为关闭。默认并行下载线程数为16个,用户可通过ASCEND_DEPLOYER_DOWNLOAD_MAX_SIZE环境变量修改并行数量。
  • MindCluster Ascend Deployer工具已提供源配置文件,默认使用华为源,用户可根据需要进行替换。具体可参考源配置
  • 下载OS依赖时,为了编译安装hccl-test工具,会自动下载mpi 3.2.1和open mpi 4.1.5版本的软件包,安装时会根据已配置的待安装环境的IP类型,使用对应的依赖进行编译,IPv4格式时,安装mpi 3.2.1;IPv6格式时,安装open mpi 4.1.5。

支持的OS及架构

表1 MindCluster Ascend Deployer工具下载时支持的OS及架构

支持的操作系统

操作系统版本

操作系统架构

使用约束

BCLinux

21.10

aarch64

仅适配在Atlas A2 训练系列产品安装Ascend HDK 23.0.RC3和CANN 7.0.RC1及以后版本的软件包。

CTyunOS

22.06

aarch64

  • CTyunOS上安装MindCluster组件时,仅支持MindCluster 5.0.RC2及以上版本的部分组件、1.19.16~1.28.X版本的k8s(Kubernetes1.24及以上版本需要安装cri-dockerd)和18.09.x及以上版本Docker。
  • Atlas 300I Pro 推理卡Atlas 300I Duo 推理卡支持部署NPU固件与驱动的24.1.0及以后版本。

CULinux

3.0

aarch64

-

CentOS

7.6

aarch64、x86_64

  • CentOS作为执行机的操作系统,使用MindCluster Ascend Deployer工具进行批量部署时,不支持部署Ubuntu系统的待安装设备。
  • Atlas 300T 训练卡低版本内核(低于4.5)的CentOS 7.6 x86_64需要添加内核补丁,否则可能导致固件安装失败。添加内核补丁的方法请参见《Atlas 中心训练卡 24.1.RC3 NPU驱动和固件安装指南》的“参考>添加内核补丁”章节
  • 由于CentOS系统下安装的docker/containerd等可以多版本共存,所以建议CentOS 7.6系统安装系统依赖前请确认系统上是否已安装docker,如果已安装请使用yum -y remove docker-ceyum -y remove docker-ce-cliyum -y remove containerd.io命令卸载后再进行系统依赖的安装。

EulerOS

2.10

aarch64、x86_64

EulerOS等操作系统默认禁止root用户远程连接,所以需提前配置/etc/ssh/sshd_config中PermitRootLogin为yes(个别OS配置方法有所差异,请参考OS官方指导)。安装完成后请及时关闭root用户远程连接。

2.8

aarch64

2.9

aarch64、x86_64

Kylin

V10(GFB)

aarch64

-

V10Tercel(SP1)

aarch64、x86_64

V10Sword(SP2)

aarch64

V10Lance(SP3)

aarch64

openEuler

20.03LTS

aarch64、x86_64

-

22.03LTS

aarch64、x86_64

Atlas 300I Duo 推理卡支持部署24.1.RC2及以后版本的NPU固件与驱动。

UOS

20-1020e

aarch64

UOS 20-1020e和20-1050u2e系统上,MindCluster Ascend Deployer工具不支持安装昇腾软件包所需系统依赖,需参考UOS系统安装依赖手动安装后再使用工具进行部署。

20-1050u2e

aarch64

Ubuntu

18.04

aarch64、x86_64

-

20.04

aarch64、x86_64

-

22.04

aarch64、x86_64

Atlas 300I Pro 推理卡支持部署NPU固件与驱动的24.1.0及以后版本。

Atlas 300I Duo 推理卡支持部署NPU固件与驱动的24.1.RC2及以后版本。

说明

  • MindCluster Ascend Deployer工具仅支持OS镜像安装成功后的默认环境,请不要在安装OS后手动额外安装或卸载软件,可能会导致工具执行报错。
  • 操作系统需关闭内核自动升级功能,以Ubuntu为例,需在操作系统安装完成并重启后,执行sudo apt-mark hold linux-image-generic linux-headers-generic linux-image-extra命令关闭(root用户执行时请删除sudo命令),其他操作系统或自定义升级系统的用户,请参考对应操作系统指南自行关闭。

支持下载的软件包

表2 MindCluster Ascend Deployer工具支持下载的软件包

可选参数

下载包含的软件包

使用约束

CANN

nnae、nnrt、tfplugin、toolkit、kernels

  • 使用MindCluster Ascend Deployer工具下载CANN的软件包时,可以使用pip3工具执行pip3 install esdk-obs-python==3.23.12安装指定版本的esdk-obs-python,启用CANN软件包断点续传功能,防止出现因软件包较大、网络原因导致下载失败或者重新下载耗时较久的情况。
  • CANN 8.0.0及之后的版本中不再支持tfplugin。

NPU

npu(driver、firmware)

NPU固件与驱动24.1.0版本中暂不提供Atlas 300I Pro 推理卡Atlas 300I Duo 推理卡Atlas 300V 视频解析卡Atlas 300V Pro 视频解析卡的相关硬件包,请自行下载准备。

MindCluster 性能测试

toolbox

-

MindCluster 集群调度

ascend-device-plugin,ascend-docker-runtime,hccl-controller,noded,npu-exporter,volcano,ascend-operator,resilience-controller,clusterd,mindio

  • 部署MindIO时,请参考下载昇腾软件下载OS系统依赖后,再手动安装dos2unix依赖(示例:apt-get install dos2unix)。
  • MindCluster 6.0.0及之后的版本中不再支持hccl-controller。

MindCluster 故障诊断

fault-diag

-

MindSpore

MindSpore

  • 使用MindCluster Ascend Deployer部署时,不支持同时下载和安装MindSpore、TensorFlow和Torch-npu。仅支持指定其中一个AI框架下载和安装,请根据实际业务场景要求选择AI框架。
  • TensorFlow2.6.5存在漏洞,请参考相关漏洞及其修复方案处理。

TensorFlow

TensorFlow

Torch-npu

torch-npu、torch