昇腾社区首页
中文
注册

软件依赖

Ascend Docker Runtime

  • 当前环境的Docker版本需要为18.09及以上版本。
  • 宿主机已安装驱动和固件,详情请参见《CANN 软件安装指南》中的“安装NPU驱动和固件”章节
  • Atlas 500 A2 智能小站安装Ascend Docker Runtime需要修改Docker配置。执行vi /etc/sysconfig/docker命令,将--config-file=""参数删除;并执行systemctl restart docker使配置生效。
  • Atlas 500 A2 智能小站预置的MEF服务会对Docker进行安全加固配置,Ascend Docker Runtime不支持在安全加固后的Docker环境下使用。若需要使用Ascend Docker Runtime,请手动卸载MEF服务,参考MindEdge Framework 用户指南》中的“卸载MEF Edge章节进行操作。

    执行systemctl status docker命令,如果返回信息里包含“/docker_entrypoint.sh”字段,则为MEF服务安全加固后的Docker。

其他集群调度组件

Arm架构和x86_64架构对应的依赖不一样,请根据系统架构选择。集群调度组件支持IPv4和IPv6,默认使用IPv4。

表1 软件环境

软件名称

支持的版本

安装位置

说明

Kubernetes

1.17.x~1.28.x(推荐使用1.19.x及以上版本)

说明:
  • 建议选择最新的bugfix版本。
  • 如需安装Volcano组件,请安装1.19.x及以上版本的Kubernetes

所有节点

了解K8s的使用请参见Kubernetes文档

(可选)Docker

18.09.x及以上版本

所有节点

可从Docker社区或官网获取。使用的Docker版本需要与Kubernetes配套,配套关系可参考Kubernetes说明,或者从Kubernetes社区获取。建议选择最新的bugfix版本。

(可选)Containerd

1.4.x及以上版本(推荐使用1.6.x版本)

所有节点

可从Containerd官网或者社区获取,建议选择最新的bugfix版本。请关注配套Kubernetes使用的CRI接口版本

昇腾AI处理器驱动和固件

请参见版本配套表(训练)或版本配套表(推理),根据实际硬件设备型号选择与MindCluster配套的驱动、固件。

计算节点

请参见各硬件产品中驱动和固件安装升级指南获取对应的指导。

说明:
为保证NPU Exporter可正常使用容器内默认的运行用户(hwMindX),请在安装驱动时使用--install-for-all参数。示例如下。
./Ascend-hdk-<chip_type>-npu-driver_<version>_linux-<arch>.run --full --install-for-all

(可选)CANN

只安装集群调度组件的情况下可不安装CANN,用户可根据实际需要选择安装所需的CANN软件包,可参见版本配套表安装对应的软件包。

  • 训练任务:nnae软件
  • 推理任务:nnrt软件
  • (推荐)全部业务:toolkit软件

计算节点或者训练推理容器内

在宿主机上安装CANN软件包,请参见CANN 软件安装指南

  • 请根据业务的实际使用场景,选择安装Docker或者Containerd
  • Atlas 服务器产品安装操作系统可以参见安装指导书Arm)和安装指导书x86_64),安装指导书并不包含上述所有操作系统,仅供参考。
  • Atlas A2 训练系列产品在虚拟机场景下对操作系统的要求不同,具体的操作系统约束请参见《Atlas A2 中心推理和训练硬件 25.0.RC1 NPU驱动和固件安装指南》中的“虚拟机安装与卸载”章节