升级Elastic Agent
Elastic Agent安装在训练镜像内,重新制作安装了新版本Elastic Agent的训练镜像即可完成升级。
前提条件
已完成升级环境检查。
升级步骤
- 参考获取软件包章节,下载新版本组件安装包。
- 安装包下载完成后,进入安装包所在路径并解压安装包。
- 执行ls -l命令,回显示例如下。
… -r-------- 1 root root 23506 Dec 28 00:10 mindx_elastic-7.1.RC1-py3-none-linux_{arch}.whl
- 基于已有训练镜像,安装新版本Elastic Agent组件。
- 执行以下命令,运行训练镜像。
docker run -it -v {安装包所在路径}:/home/elastic {训练镜像名称}:tag /bin/bash
- 进入/home/elastic目录,重新安装Elastic Agent组件。
cd /home/elastic pip install mindx_elastic-7.1.RC1-py3-none-linux_{arch}.whl --force-reinstall
(可选)使用优雅容错、Pod级别重调度或进程级别重调度时必须配置以下命令。
RUN sed -i '/import logging/i import mindx_elastic.api' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/run.py
- 安装了新版本Elastic Agent,退出容器,将容器保存为训练镜像。
docker ps -a
回显示例如下。
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 04d5cfbbd4c1 {训练镜像名称}:tag "/bin/bash" 17 minutes ago Exited (0) About a minute ago cranky_edison …
将该容器提交为新版本训练容器镜像,注意新镜像的tag与旧镜像不一致。
docker commit 04d5cfbbd4c1 {训练镜像名称}:新tag
- 执行以下命令,运行训练镜像。
- 检查新版Elastic Agent是否升级完成。参考检查Elastic Agent章节,检查组件状态是否正常。
- (可选)回退老版本。若旧版镜像仍然存在,无需回退操作;若不存在,依次执行步骤1-步骤3,重新安装旧版本Elastic Agent软件包即可。
父主题: 升级