准备镜像

用户可通过以下两种方式准备镜像,获取镜像后依次为安装的相应组件创建节点标签、创建用户、创建日志目录和创建命名空间。

  • 拉取或者制作镜像完成后,请及时进行安全加固,如修复基础镜像的漏洞、安装第三方依赖导致的漏洞等。
  • K8s所使用的容器运行时中导入镜像。如K8s 1.24以上版本默认使用Containerd作为容器运行时,拉取或者制作完镜像后需要将镜像导入到Containerd中。
  • MindCluster NPU ExporterMindCluster Ascend Device Plugin的运行用户为root,在对应的Dockerfile中配置了LD_LIBRARY_PATH环境变量,其中的值包含了驱动库的相关路径。组件运行时会使用到其中的文件,建议驱动安装时指定的运行用户为root,避免用户不一致带来的提权风险。

从昇腾镜像仓库拉取镜像

  1. 确保服务器能访问互联网后,访问昇腾镜像仓库
  2. 在左侧导航栏选择“MindX DL”,然后根据下表选择组件对应的镜像。拉取的镜像需要重命名后才能使用组件启动yaml进行部署,可参考步骤3

    表1 镜像列表

    组件

    镜像名称

    镜像tag

    拉取镜像的节点

    MindCluster Resilience Controller

    resilience-controller

    v6.0.RC2

    管理节点

    MindCluster Volcano

    根据需要选择镜像:

    v1.4.0-v6.0.RC2

    v1.7.0-v6.0.RC2

    MindCluster HCCL Controller

    hccl-controller

    v6.0.RC2

    MindCluster Ascend Operator

    ascend-operator

    v6.0.RC2

    MindCluster ClusterD

    clusterd

    v6.0.RC2

    MindCluster NodeD

    noded

    v6.0.RC2

    计算节点

    MindCluster NPU Exporter

    npu-exporter

    v6.0.RC2

    MindCluster Ascend Device Plugin

    ascend-k8sdeviceplugin

    v6.0.RC2

    若无下载权限,请根据页面提示申请权限。提交申请后等待管理员审核,审核通过后即可下载镜像。

  3. 昇腾镜像仓库中拉取的集群调度镜像与组件启动yaml中的名字不一致,需要重命名拉取的镜像后才能启动。根据以下步骤将2中获取的镜像重新命名,同时建议删除原始名字的镜像。具体操作如下。

    1. 执行以下命令,重命名镜像(用户需根据所使用的组件,选取对应命令执行)。
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/resilience-controller:v6.0.RC2 resilience-controller:v6.0.RC2
      
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/ascend-operator:v6.0.RC2 ascend-operator:v6.0.RC2
      
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/npu-exporter:v6.0.RC2 npu-exporter:v6.0.RC2
      
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/ascend-k8sdeviceplugin:v6.0.RC2 ascend-k8sdeviceplugin:v6.0.RC2
      
      # 使用1.4.0版本的MindCluster Volcano,需要将镜像tag修改为v1.4.0-v6.0.RC2
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/vc-controller-manager:v1.7.0-v6.0.RC2 volcanosh/vc-controller-manager:v1.7.0
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/vc-scheduler:v1.7.0-v6.0.RC2 volcanosh/vc-scheduler:v1.7.0
      
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/noded:v6.0.RC2 noded:v6.0.RC2
      
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/hccl-controller:v6.0.RC2 hccl-controller:v6.0.RC2
      
      docker tag swr.cn-south-1.myhuaweicloud.com/ascendhub/clusterd:v6.0.RC2 clusterd:v6.0.RC2
    2. (可选)执行以下命令,删除原始名字镜像(用户需根据所使用的组件,选取对应命令执行)。
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/resilience-controller:v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/ascend-operator:v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/npu-exporter:v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/ascend-k8sdeviceplugin:v6.0.RC2
      # 使用1.4.0版本的MindCluster Volcano,需要将镜像tag修改为v1.4.0-v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/vc-controller-manager:v1.7.0-v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/vc-scheduler:v1.7.0-v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/noded:v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/hccl-controller:v6.0.RC2
      docker rmi swr.cn-south-1.myhuaweicloud.com/ascendhub/clusterd:v6.0.RC2

制作镜像

  1. 获取软件包章节,获取需要安装的集群调度组件软件包。
  2. 将软件包解压后,上传到制作镜像服务器的任意目录。以MindCluster Ascend Operator为例,放到“/home/ascend-operator”目录,目录结构如下。

    root@node:/home/ascend-operator# ll
    total 41388
    drwxr-xr-x 2 root root     4096 Aug 26 20:20 ./
    drwxr-xr-x 6 root root     4096 Aug 26 20:20 ../
    -r-x------ 1 root root 41992192 Aug 26 02:02 ascend-operator*
    -r-------- 1 root root   372291 Aug 26 02:02 ascend-operator-v6.0.RC2.yaml
    -r-------- 1 root root      482 Aug 26 02:02 Dockerfile
    MindCluster NPU ExporterMindCluster Ascend Device Plugin若以容器化的形式部署在Atlas 200I SoC A1 核心板上,需要进行如下操作。
    1. 在制作镜像时检查宿主机HwHiAiUser、HwDmUser、HwBaseUser用户的UIDGID,并记录该GIDUID的取值。
    2. 查看在Dockerfile-310P-1usoc中创建HwHiAiUser、HwDmUser、HwBaseUser用户时指定的GIDUID是否与宿主机的一致。如果一致则不做修改;如果不一致,请手动修改Dockerfile-310P-1usoc文件使其保持一致,同时需要保证每台宿主机上HwHiAiUser、HwDmUser、HwBaseUser用户的GIDUID的取值一致。

  3. 检查制作集群调度组件镜像的节点是否存在如下基础镜像。

    • 执行docker images | grep ubuntu命令检查ubuntu镜像,Arm架构和x86_64架构镜像大小有差异。
      ubuntu              18.04               6526a1858e5d        2 years ago         64.2MB
    • 如果需要安装MindCluster Volcano,则需要检查alpine镜像是否存在。执行docker images | grep alpine命令检查,回显示例如下,Arm架构和x86_64架构镜像大小有差异。
      alpine            latest              a24bb4013296        2 years ago         5.57MB

    若上述基础镜像不存在,使用表2中相关命令拉取基础镜像(拉取镜像需要服务器能访问互联网)。

    表2 获取基础镜像命令

    基础镜像

    拉取镜像命令

    说明

    ubuntu:18.04

    docker pull ubuntu:18.04

    拉取时自动识别系统架构。

    alpine:latest

    • x86_64架构
      docker pull alpine:latest
    • Arm架构
      docker pull arm64v8/alpine:latest
      docker tag arm64v8/alpine:latest alpine:latest

    -

  4. 进入组件解压目录,执行docker build命令制作镜像,命令参考如下表3

    表3 各组件镜像制作命令

    节点产品类型

    组件名称

    镜像制作命令

    说明

    其他产品

    MindCluster Ascend Device Plugin

    docker build --no-cache -t ascend-k8sdeviceplugin:{tag} ./

    {tag}需要参考软件包上的版本。如:软件包上版本为6.0.RC2,则{tag}为v6.0.RC2。

    说明:

    请确保Dockerfile-310P-1usoc中HwDmUser和HwBaseUser的GIDUID与物理机上的保持一致。

    Atlas 200I SoC A1 核心板

    docker build --no-cache -t ascend-k8sdeviceplugin:{tag} -f Dockerfile-310P-1usoc ./

    其他产品

    MindCluster NPU Exporter

    docker build --no-cache -t npu-exporter:{tag} ./

    Atlas 200I SoC A1 核心板

    docker build --no-cache -t npu-exporter:{tag} -f Dockerfile-310P-1usoc ./

    其他产品

    MindCluster HCCL Controller

    docker build --no-cache -t hccl-controller:{tag} ./

    MindCluster Ascend Operator

    docker build --no-cache -t ascend-operator:{tag} ./

    MindCluster Resilience Controller

    docker build --no-cache -t resilience-controller:{tag} ./

    MindCluster NodeD

    docker build --no-cache -t noded:{tag} ./

    MindCluster ClusterD

    docker build --no-cache -t clusterd:{tag} ./

    MindCluster Volcano

    进入MindCluster Volcano组件解压目录,选择以下版本路径并进入。

    • v1.4.0版本执行以下命令。
      docker build --no-cache -t volcanosh/vc-scheduler:v1.4.0 ./ -f ./Dockerfile-scheduler
      docker build --no-cache -t volcanosh/vc-controller-manager:v1.4.0 ./ -f ./Dockerfile-controller
    • v1.7.0版本执行以下命令。
      docker build --no-cache -t volcanosh/vc-scheduler:v1.7.0 ./ -f ./Dockerfile-scheduler
      docker build --no-cache -t volcanosh/vc-controller-manager:v1.7.0 ./ -f ./Dockerfile-controller

    -

    MindCluster Ascend Operator组件的镜像制作为例,执行docker build --no-cache -t ascend-operator:v6.0.RC2 .进行制作,回显示例如下:
    DEPRECATED: The legacy builder is deprecated and will be removed in a future release.
                Install the buildx component to build images with BuildKit:
                https://docs.docker.com/go/buildx/
    Sending build context to Docker daemon  42.37MB
    Step 1/5 : FROM ubuntu:18.04 as build
     ---> 1f37bb13f08a
    Step 2/5 : RUN useradd -d /home/hwMindX -u 9000 -m -s  /usr/sbin/nologin hwMindX &&     usermod root -s /usr/sbin/nologin
     ---> Running in d43f1927b1fd
    Removing intermediate container d43f1927b1fd
     ---> 9f1d64e06ee6
    Step 3/5 : COPY ./ascend-operator  /usr/local/bin/
     ---> 5022b58c516e
    Step 4/5 : RUN chown -R hwMindX:hwMindX /usr/local/bin/ascend-operator  &&    chmod 500 /usr/local/bin/ascend-operator &&    chmod 750 /home/hwMindX &&    echo 'umask 027' >> /etc/profile &&     echo 'source /etc/profile' >> /home/hwMindX/.bashrc
     ---> Running in a781bde3dc56
    Removing intermediate container a781bde3dc56
     ---> 3d7e2ee7a3bd
    Step 5/5 : USER hwMindX
     ---> Running in 338954be8d99
    Removing intermediate container 338954be8d99
     ---> 103f6a2b43a5
    Successfully built 103f6a2b43a5
    Successfully tagged ascend-operator:v6.0.RC2

  5. 满足以下场景可以跳过本步骤。

    • 已将制作好的集群调度组件镜像上传到私有镜像仓库,各节点可以通过私有镜像仓库拉取集群调度组件的镜像。
    • 已在安装集群调度组件各节点制作好了组件对应的镜像。
    如不满足上述场景,则需要手动分发各组件镜像到各个节点。以MindCluster HCCL Controller组件为例,使用离线镜像包的方式,分发镜像到其他节点。
    1. 将制作完成的镜像保存成离线镜像。
      docker save hccl-controller:v6.0.RC2 > hccl-controller-v6.0.RC2-linux-arrch64.tar
    2. 将镜像拷贝到其他节点。
      scp hccl-controller-v6.0.RC2-linux-arrch64.tar root@{目标节点IP地址}:保存路径
    3. 以root用户登录各个节点载入离线镜像。
      docker load < hccl-controller-v6.0.RC2-linux-arrch64.tar