Elastic Agent安装在训练镜像内,重新制作安装了新版本Elastic Agent的训练镜像即可完成升级。
已完成升级环境检查。
… -r-------- 1 root root 23506 Dec 28 00:10 mindx_elastic-7.0.RC1-py3-none-linux_{arch}.whl
docker run -it -v {安装包所在路径}:/home/elastic {训练镜像名称}:tag /bin/bash
cd /home/elastic pip install mindx_elastic-7.0.RC1-py3-none-linux_{arch}.whl --force-reinstall
(可选)使用优雅容错、Pod级别重调度或进程级别重调度时必须配置以下命令。
RUN sed -i '/import logging/i import mindx_elastic.api' $(pip3 show torch | grep Location | awk -F ' ' '{print $2}')/torch/distributed/run.py
docker ps -a
回显示例如下。
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 04d5cfbbd4c1 {训练镜像名称}:tag "/bin/bash" 17 minutes ago Exited (0) About a minute agocranky_edison …
将该容器提交为新版本训练容器镜像,注意新镜像的tag与旧镜像不一致。
docker commit 04d5cfbbd4c1 {训练镜像名称}:新tag