昇腾社区首页
中文
注册

支持安装及升级的软件包

MindCluster Ascend Deployer工具支持指定安装如表1所示软件包,可通过执行bash install.sh --help查看--install=<package_name>支持参数。

安装须知

  • 安装时,运行环境时间需要通过date -s命令校准到正确的UTC时间。
  • 指定软件安装或升级时,MindCluster Ascend Deployer只支持指定安装或升级近一年内的软件版本。
  • MindCluster Ascend Deployer工具只能安装最基本的库,确保TensorFlow和PyTorch能够运行。若需运行较为复杂的推理业务或模型训练,模型代码中可能包含具体业务相关的库,这些库需用户自行安装。
  • gcc版本低于7.3.0,MindCluster Ascend Deployer工具会自动安装。
  • MindCluster Ascend Deployer工具所需依赖较多,建议在工具下载的OS依赖安装完成后,对用户自行上传软件包进行安装或者升级等操作。

可选安装及升级的软件包

表1 可选安装及升级软件包

场景分类

软件包类型

指定参数

说明

仅安装

系统组件

sys_pkg

UOS系统下不支持单独指定sys_pkg安装。

仅安装

Python

python

  • 所有Python库的安装都必须先安装Python,如TensorFlow、MindSpore、PyTorch等。
  • MindCluster Ascend Deployer工具默认下载和安装的Python版本为3.7.5,本手册中均以在环境上安装Python 3.7.5为例进行说明。

    如果用户想选择其他Python版本(不建议更改默认配置),可以通过设置环境变量ASCEND_PYTHON_VERSION(如export ASCEND_PYTHON_VERSION=Python-3.7.0)或修改ascend-deployer/ascend_deployer/downloader/config.ini文件中的Python配置项的方式,指定要安装的Python版本(可选版本为3.7.0~3.7.11、3.8.0~3.8.11、3.9.0~3.9.9、3.10.0~3.10.12、3.11.4)。

仅安装

仅分发软件包

copy_pkgs

强制分发环境下所有软件包,copy_pkgs会将resources文件夹下所有软件包分发给待安装设备。

使用示例:bash install.sh --install=copy_pkgs

安装和升级

NPU驱动和固件

npu(driver、firmware)

  • MindCluster Ascend Deployer工具安装驱动版本和系统内核不匹配时,此时需要用户参考安装驱动源码编译所需依赖手动安装。
  • 安装npu时,会提前获取设备健康状态。如果设备存在问题,则会终止整个安装过程。

安装和升级

CANN软件

nnae、nnrt、tfplugin、toolkit、kernels

  • kernels会默认安装在同一版本的nnae下,未安装nnae时,则安装在toolkit下,toolkit和nnae都未安装,则安装在nnrt下,nnae、toolkit和nnrt都未安装,则默认跳过安装。安装后的路径(以跟随toolkit安装为例):“软件包安装路径/ascend-toolkit/latest/opp/built-in/op_impl/ai_core/tbe/kernel”。
  • 安装toolkit时,会自动编译安装HCCL性能测试工具,安装后的路径:软件包安装路径/ascend-toolkit/latest/tools/hccl_test。
  • CANN 8.0.0及之后的版本中不再支持tfplugin。

安装和升级

MindCluster 性能测试

toolbox

-

安装和升级

MindCluster 集群调度

ascend-device-plugin,ascend-docker-runtime,hccl-controller,noded,npu-exporter,volcano,ascend-operator,resilience-controller,clusterd

  • 仅支持在已有K8s和Docker场景下安装。
  • 安装MindCluster场景时,请确保系统中Docker容器、文件系统或根目录的磁盘空间,在已用空间基础上额外使用18G(MindCluster镜像和训练推理镜像预估值)后,剩余可用空间大于30%。
  • 若用户在设备上已完成Kubernetes的安装部署,请检查Kubernetes的软件版本是否是1.19.16-1.28.X之间的版本(Kubernetes1.24及以上版本需要安装cri-dockerd)以及Docker 版本是否是18.09.x及以上版本,若检查结果为否,会导致安装失败。
  • MindCluster 6.0.0及之后的版本中不再支持hccl-controller。

安装和升级

MindCluster 故障诊断

fault-diag

仅支持以下版本的Python:3.7、3.9、3.10、3.11.4。

仅安装

MindCluster 集群调度(MindIO)

mindio

仅支持root用户安装。

仅安装

AI框架

tensorflow、pytorch、mindspore

使用MindCluster Ascend Deployer部署时,不支持同时下载和安装MindSpore、TensorFlow和Torch-npu。仅支持指定其中一个AI框架下载和安装,请根据实际业务场景要求选择AI框架。

仅安装

容器镜像工具

docker_images

-

仅安装

MindEdge软件

ha、atlasedge、ief。

IEF Agent安装完成后,需要登录管理控制台-智能边缘平台,选择左侧导航栏的“边缘资源 > 边缘节点”,在边缘节点列表中查看已纳管的边缘节点状态。如果节点状态为“运行中”,表示纳管成功。