升级Elastic Agent

Elastic Agent安装在训练镜像内,重新制作安装了新版本Elastic Agent的训练镜像即可完成升级。

前提条件

已完成升级环境检查

升级步骤

  1. 参考获取软件包章节,下载新版本组件安装包。
  2. 安装包下载完成后,进入安装包所在路径并解压安装包。
  3. 执行ls -l命令,回显示例如下。

    …
    -r-------- 1 root root 23506 Dec 28 00:10 mindx_elastic-7.0.RC1-py3-none-linux_{arch}.whl

  4. 基于已有训练镜像,安装新版本Elastic Agent组件。

    1. 执行以下命令,运行训练镜像。
      docker run -it -v {安装包所在路径}:/home/elastic  {训练镜像名称}:tag /bin/bash
    2. 进入/home/elastic目录,重新安装Elastic Agent组件。
      cd /home/elastic
      pip install mindx_elastic-7.0.RC1-py3-none-linux_{arch}.whl  --force-reinstall

      (可选)使用优雅容错、Pod级别重调度或进程级别重调度时必须配置以下命令。

      RUN sed -i '/import logging/i import mindx_elastic.api' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/run.py
    3. 安装了新版本Elastic Agent,退出容器,将容器保存为训练镜像。
      docker ps -a

      回显示例如下。

      CONTAINER ID     IMAGE             COMMAND         CREATED          STATUS                PORTS     NAMES
      04d5cfbbd4c1   {训练镜像名称}:tag    "/bin/bash"     17 minutes ago   Exited (0) About a minute agocranky_edison
      …

      将该容器提交为新版本训练容器镜像,注意新镜像的tag与旧镜像不一致。

      docker commit 04d5cfbbd4c1 {训练镜像名称}:新tag

  5. 检查新版Elastic Agent是否升级完成。参考检查Elastic Agent,检查组件状态是否正常。
  6. (可选)回退老版本。若旧版镜像仍然存在,无需回退操作;若不存在,依次执行步骤1-步骤3,重新安装旧版本Elastic Agent软件包即可。