昇腾社区首页
中文
注册

升级说明

本章节旨在指导用户将MindCluster集群调度组件升级到新版本。MindCluster集群调度组件的升级支持以下2种方式。

  • 全量升级:此种升级方式不仅会升级各组件的二进制镜像文件,而且升级后可对组件的配置文件进行修改。此种升级方式支持跨版本升级,例如,用户可从5.0.x版本升级到7.0.x版本。
  • 升级镜像:此种升级方式仅升级各组件的二进制文件,不支持修改权限、启动参数等,无需进行升级前环境检查。此种升级方式仅支持在同一个版本内进行升级。
    表1 升级方式说明

    升级方式

    是否支持跨版本升级

    是否需要停止训练/推理任务

    参考章节

    全量升级

    7.1-7.5章节

    升级镜像

    7.6章节

    本章节不适用的场景:用户对旧版本MindCluster集群调度组件的源代码(不含配置文件)进行了修改,请分析版本代码差异后再进行升级。

升级环境检查

在进行各组件的升级步骤前,请根据实际安装场景,选择相应的组件进行检查。

  1. 检查是否有正在运行的任务。若用户正在执行的任务,请等待任务执行完成或提前停止任务后,再升级MindCluster组件。
    1. 请执行以下命令检查是否有正在运行的任务。
      kubectl get pods -A
      回显示例如下。
      1
      2
      NAMESPACE        NAME                                       READY   STATUS    RESTARTS         AGE
      default          ubuntu-pod                                 1/1     Running   32 (118m ago)    3d18h ...  
      
    2. 进入任务YAML所在路径,执行以下命令停止任务。
      kubectl delete -f  xxx.yaml              # xxx表示任务YAML的名称,请根据实际情况填写    
  2. (可选)检查pingmesh灵衢网络检测开关是否已关闭。
    1. 登录环境,进入NodeD解压目录。
    2. 执行以下命令编辑pingmesh-config文件。
      kubectl edit cm -n cluster-system   pingmesh-config

      如果回显如下所示,表示pingmesh灵衢网络检测开关已关闭。无需执行步骤3

      Error from server (NotFound): configmaps "pingmesh-config" not found
    3. (可选)修改activate字段的取值。
      • 如果超节点ID在pingmesh-config文件中,修改该超节点ID字段下的activate为off。
      • 如果超节点ID不在pingmesh-config文件中,可通过以下2种方式进行设置。
        • 在配置文件中新增该超节点信息,并将activate为off。
        • 删除pingmesh-config文件中所有超节点的信息,并将global配置中activate字段的值设置为off。
  3. 检查已安装的MindCluster组件。
    • (可选)检查Elastic Agent组件。执行如下命令,进入容器内部,查看Elastic Agent组件安装状态。
      docker run -it  {训练镜像名称}:tag /bin/bash
      pip show mindx-elastic

      回显如下,表示此镜像中已安装Elastic Agent组件。

       1
       2
       3
       4
       5
       6
       7
       8
       9
      10
      Name: mindx_elastic
      Version: 7.1.rc1
      Summary: Ascend MindX Elastic is a new library for fault tolerance training.
      Home-page:
      Author:
      Author-email:
      License:
      Location: /usr/local/python3/lib/python3.8/site-packages
      Requires:
      Required-by:
      
    • (可选)检查TaskD组件。执行以下命令进入容器内部,查看TaskD组件安装状态。
      docker run -it  {训练镜像名称}:tag /bin/bash
      pip show taskd

      回显如下,表示镜像中已安装TaskD组件。

      Name: taskd
      Version: 7.0rc1
      Summary: Ascend MindCluster taskd is a new library for training management
      Home-page: UNKNOWN
      Author: 
      Author-email: 
      License: UNKNOWN
      Location: /usr/local/python3/lib/python3.8/site-packages
      Requires: grpcio, protobuf, pyOpenSSL, torch, torch-npu
      Required-by:
    • (可选)检查其他组件。参考组件状态确认,确认集群中节点是否安装了相应组件。
  4. (可选)若尚未安装MindCluster集群调度组件,请参考安装部署章节先安装组件,Elastic AgentTaskD的安装步骤请参考制作镜像章节