升级说明

本章节旨在指导用户将MindCluster集群调度组件升级到新版本。在进行各组件的升级步骤前,请先检查升级环境。

本章节不适用的场景:用户对旧版本MindCluster集群调度组件的源代码(不含配置文件)进行了修改,请分析版本代码差异后再进行升级。

升级环境检查

请根据实际安装场景,选择相应的组件进行检查。

  1. 检查是否有正在运行的任务。若用户正在执行的任务,请等待任务执行完成或提前停止任务后,再升级MindCluster组件。

    1. 请执行以下命令检查是否有正在运行的任务。
      kubectl get pods -A
      回显示例如下。
      1
      2
      NAMESPACE        NAME                                       READY   STATUS    RESTARTS         AGE
      default          ubuntu-pod                                 1/1     Running   32 (118m ago)    3d18h ...  
      
    2. 进入任务YAML所在路径,执行以下命令停止任务。
      kubectl delete -f  xxx.yaml              # xxx表示任务YAML的名称,请根据实际情况填写    

  2. (可选)检查pingmesh总线网络检测开关是否已关闭。

    1. 登录环境,进入NodeD解压目录。
    2. 执行以下命令编辑pingmesh-config文件。
      kubectl edit cm -n cluster-system   pingmesh-config
    3. 修改activate字段的取值。
      • 如果超节点ID在pingmesh-config文件中,修改该超节点ID字段下的activate为off。
      • 如果超节点ID不在pingmesh-config文件中,可通过以下2种方式进行设置。
        • 在配置文件中新增该超节点信息,并将activate为off。
        • 删除pingmesh-config文件中所有超节点的信息,并将global配置中activate字段的值设置为off。

  3. 检查已安装的MindCluster组件。

    • (可选)检查Elastic Agent组件。执行如下命令,进入容器内部,查看Elastic Agent组件安装状态。
      docker run -it  {训练镜像名称}:tag /bin/bash
      pip show mindx-elastic

      回显如下,表示此镜像中已安装Elastic Agent组件。

       1
       2
       3
       4
       5
       6
       7
       8
       9
      10
      Name: mindx_elastic
      Version: 7.0.rc1
      Summary: Ascend MindX Elastic is a new library for fault tolerance training.
      Home-page:
      Author:
      Author-email:
      License:
      Location: /usr/local/python3/lib/python3.8/site-packages
      Requires:
      Required-by:
      
    • (可选)检查TaskD组件。执行以下命令进入容器内部,查看TaskD组件安装状态。
      docker run -it  {训练镜像名称}:tag /bin/bash
      pip show taskd

      回显如下,表示镜像中已安装taskd组件。

      Name: taskd
      Version: 7.0rc1
      Summary: Ascend MindCluster taskd is a new library for training management
      Home-page: UNKNOWN
      Author: 
      Author-email: 
      License: UNKNOWN
      Location: /usr/local/python3/lib/python3.8/site-packages
      Requires: grpcio, protobuf, pyOpenSSL, torch, torch-npu
      Required-by:
    • (可选)检查其他组件。参考组件状态确认,确认集群中节点是否安装了相应组件。

  4. (可选)若尚未安装MindCluster集群调度组件,请参考安装部署章节先安装组件,Elastic AgentTaskD的安装步骤请参考制作镜像章节