部署容器(制作容器镜像方式-TensorFlow)
本章节介绍如何制作容器包含CANN软件的镜像,以实现用户在容器场景使用训练业务。
拥有制作容器镜像Dockerfile文件的OS:Debian9.9、ubuntu18.04、CentOS 7.6、openEuler 20.03。
前提条件
- 容器OS镜像可从Docker Hub拉取,请确保安装环境能够连接网络。
- 由于Docker Hub中不存在openEuler 20.03的镜像,如果需要在容器内使用openEuler OS,可执行如下步骤。
- 登录https://repo.openeuler.org/openEuler-20.03-LTS-SP2/docker_img/x86_64/,下载镜像文件“openEuler-docker.x86_64.tar.xz”。
- 将镜像文件上传到服务器任意目录(如“/home”)。
- 在存放镜像的目录下执行如下命令导入镜像。
docker load -i openEuler-docker.x86_64.tar.xz docker images
回显类似如下信息表示成功导入。REPOSITORY TAG IMAGE ID CREATED SIZE openeuler-20.03-lts-sp2 latest 58b9cc5bcb76 10 months ago 331MB
制作容器镜像
- 执行docker images命令查看宿主机上是否已存在容器OS镜像,如下所示,如果已存在镜像,则直接执行3,否则执行2拉取容器OS镜像。
ubuntu 20.04 d5ca7a445605 5 months ago 65.6MB ubuntu 18.04 7266638574fb 5 months ago 56.6MB
- 执行docker pull ubuntu:18.04命令拉取容器OS镜像,拉取后可以按照1方法查看镜像是否已拉取成功。
ubuntu:18.04请根据现场实际OS和版本刷新。
- 登录Dockerfile目录,单击黄色按钮“克隆/下载”,选择“SSH”页签,单击“下载ZIP”按钮,下载目录压缩文件“ascend-docker-image-master.zip”(该操作需登录 Gitee 帐号,如果没有账号,请用户根据提示自行注册账号),将文件上传至服务器任意目录,如“/home”,解压文件。
unzip ascend-docker-image-master.zip
Dockerfile目录结构如下所示。ascend-docker-image-master │──ascend-algorithm │──ascend-mindspore // 制作mindspore训练镜像路径 │ │──Dockerfile │──ascend-pytorch // 制作pytorch训练镜像路径 │ │──Dockerfile │──ascend-tensorflow // 制作tensorflow训练镜像路径 │ │──Dockerfile │──ascend-toolkit // 制作toolkit镜像路径 │ │──Dockerfile │──ascendbase-toolkit // 该目录中的Dockerfile文件包含toolkit软件的安装,用于制作基础镜像,请用户根据需要的容器镜像操作系统版本和架构选择相应的路径制作镜像 │ ├──centos7.6-arm64 │ │ │──Dockerfile │ ├──centos7.6-x64 │ │ │──Dockerfile │ ├──debian9.9-x64 │ │ │──Dockerfile │ ├──openeuler20.03-arm64 │ │ │──Dockerfile │ ├──openeuler20.03-x64 │ │ │──Dockerfile │ ├──ubuntu18.04-arm64 │ │ │──Dockerfile │ ├──ubuntu18.04-x64 │ │ │──Dockerfile
- 构建镜像ascendbase-toolkit。
- 进入如下路径。
cd /home/ascend-docker-image-master/ascendbase-toolkit/{os}-{arch}
其中{os}表示容器镜像操作系统版本,{arch}表示架构,请根据实际情况替换,如“/home/ascend-docker-image-master/ascendbase-toolkit/ubuntu18.04-x64”。
- Dockerfile文件已存在当前目录,用户可根据实际需要自行定制。
- (可选)请在当前目录准备libstdc++.so.6.0.24(动态库文件,仅当容器镜像OS为CentOS时需要准备libstdc++.so.6.0.24文件)。
在当前目录下,执行如下命令查询libstdc++.so.6.0.24文件所在路径,并将文件拷贝到当前目录。
find / -name libstdc++.so.6.0.24 cp -r 文件路径 ./
- 在当前目录执行以下命令构建镜像ascendbase-toolkit。
docker build -t ascendbase-toolkit:base_TAG .
注意不要遗漏命令结尾的“.”,命令解释如表1所示。
构建镜像时,如果在pip安装python依赖包时出现类似如下超时或证书错误,请修改Dockerfile更换pip源。
SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: self signed certificate in certificate chain (_ssl.c:1076)'))) ReadTimeoutError: HTTPSConnectionPool(host='mirrors.huaweicloud.com', port=443): Read timed out.
表1 命令参数说明 参数
说明
ascendbase-toolkit:base_TAG
镜像名称与标签,建议将base_TAG命名为“日期-容器OS-架构”(例如“20210106-ubuntu18.04-x64”)。
当出现“Successfully built xxx”表示镜像构建成功。
- 进入如下路径。
- 基于镜像ascendbase-toolkit,构建镜像ascend-toolkit。
- 进入如下路径。
cd /home/ascend-docker-image-master/ascend-toolkit
- 请在当前目录准备以下软件包和相关文件。
表2 所需软件或文件 软件或文件
说明
获取方法
Ascend-cann-toolkit_*.run
开发套件包。
参见下载软件。
Dockerfile
制作镜像需要。
已存在于当前目录。
用户可根据实际需要自行定制。
- 在当前目录执行以下命令构建镜像ascend-toolkit。
docker build -t ascend-toolkit:toolkit_TAG --build-arg BASE_VERSION=base_TAG .
注意不要遗漏命令结尾的“.”,命令解释如表3所示。
表3 命令参数说明 参数
说明
ascend-toolkit:toolkit_TAG
镜像名称与标签,建议将toolkit_TAG命名为“软件包版本-容器OS-架构”(例如“6.3.RC1-ubuntu18.04-x64”)。
--build-arg
指定dockerfile文件内的参数。
BASE_VERSION
base_TAG为4.d中设置的镜像标签。
命令示例如下所示。
docker build -t ascend-toolkit:6.3.RC1-ubuntu18.04-x64 --build-arg BASE_VERSION=20210106-ubuntu18.04-x64 .
当出现“Successfully built xxx”表示镜像构建成功。
- 进入如下路径。
- 基于镜像ascend-toolkit,构建镜像ascend-tensorflow。
- 进入如下路径。
cd /home/ascend-docker-image-master/ascend-tensorflow
- 请在当前目录准备以下软件包和相关文件。
表4 所需软件或文件 软件或文件
说明
获取方法
Ascend-cann-tfplugin_*.run
深度学习框架插件包。
参见下载软件。
tensorflow-*.whl
tensorflow框架whl包。
Dockerfile
制作镜像需要。
已存在于当前目录。
用户可根据实际需要自行定制。
- 在当前目录下执行vi Dockerfile命令,打开Dockerfile文件,将以下内容删除。
COPY --chown=HwHiAiUser:HwHiAiUser Open_Source_Software_Notice.txt /home/HwHiAiUser/Open_Source_Software_Notice.txt COPY --chown=HwHiAiUser:HwHiAiUser Keras-MnasNet_ID3518_for_TensorFlow2.X /home/HwHiAiUser/Keras-MnasNet_ID3518_for_TensorFlow2.X COPY --chown=HwHiAiUser:HwHiAiUser test_model.sh /home/HwHiAiUser/test_model.sh
内容删除后,执行:wq!命令保存文件并退出。
- 在当前目录下执行如下命令,将ascend_install.info(软件包安装日志文件)拷贝至当前目录。
- 在当前目录下执行如下命令,将version.info(driver包版本信息文件)拷贝至当前目录。
- 在当前目录执行以下命令构建镜像ascend-tensorflow。
docker build -t ascend-tensorflow:tensorflow_TAG --build-arg BASE_VERSION=toolkit_TAG .
注意不要遗漏命令结尾的“.”,命令解释如表5所示。
表5 命令参数说明 参数
说明
ascend-tensorflow:tensorflow_TAG
镜像名称与标签,建议将tensorflow_TAG命名为“软件包版本-容器OS-架构”(例如“6.3.RC1-ubuntu18.04-x64”)。
--build-arg
指定dockerfile文件内的参数。
BASE_VERSION
toolkit_TAG为5.c中设置的镜像标签。
当出现“Successfully built xxx”表示镜像构建成功。
- 进入如下路径。
部署容器
当宿主机环境为CentOS系统时,由于CentOS的安全模块selinux默认开启,会导致挂载到容器的本地目录没有执行权限,因此需要临时关闭selinux,命令为:su -c "setenforce 0"。完成相关业务后再重新开启selinux,命令为: su -c "setenforce 1"。
- 请执行如下命令基于新镜像运行一个容器。
docker run -itd -e ASCEND_VISIBLE_DEVICES=xxx --pids-limit 409600 image-name:tag /bin/bash
表6 参数解释 参数
参数说明
ASCEND_VISIBLE_DEVICES=xxx
使用ASCEND_VISIBLE_DEVICES环境变量指定被挂载至容器中的NPU设备(用户可执行ls /dev/ | grep davinci*命令查询宿主机的NPU设备),使用设备序号指定设备,支持单个和范围指定且支持混用。例如:
--pids-limit 409600
当host宿主机系统为CentOS和BC-linux时,docker内的线程数最大为4092,无法满足训练要求,启动容器时需要添加该参数以配置CentOS/BC-linux下docker的最大线程。
image-name:tag
镜像名称与标签,填写6.f中构建的镜像和tag(如“ascend-tensorflow:6.3.RC1-ubuntu18.04-x64”)。
命令示例:
docker run -itd -e ASCEND_VISIBLE_DEVICES=0 ascend-tensorflow:6.3.RC1-ubuntu18.04-x64 /bin/bash
执行该命令后,如果显示容器ID(本例为“1dc80f32c263”),则表示已经启动该容器。
执行如下命令进入容器。
docker exec -it 容器ID /bin/bash docker exec -it 1dc80f32c263 /bin/bash
回显以下信息,表示成功进入该容器。
HwHiAiUser@1dc80f32c263:~$
如果用户在宿主机创建了模型文件目录(用于容器中调用模型进行训练),可以在启动容器时挂载模型目录(如“/data/model ”),命令示例如下所示:
docker run -itd -e ASCEND_VISIBLE_DEVICES=0 -v /data/model:/data/model ascend-tensorflow:6.3.RC1-ubuntu18.04-x64 /bin/bash
- 容器启动后,执行以下命令查看当前docker容器中可以使用的davinci设备:
ls /dev/ | grep davinci*
命令执行情况如下图。
其中:
- davinci_manager为管理模块的字符设备节点。
- davinci0为该容器使用的davinci设备。
查看容器目录结构
- 查看“/usr/local/Ascend”目录结构。
cd /usr/local/Ascend ll
图1 “/usr/local/Ascend”目录结构
- 查看“/usr/local/Ascend/ascend-toolkit”目录结构。
cd /usr/local/Ascend/ascend-toolkit ll
图2 “/usr/local/Ascend/ascend-toolkit”目录结构
删除容器镜像
用户可将不需要的容器镜像删除,避免占用磁盘空间。
- 删除容器
- 以root用户登录服务器。
- 执行如下命令查看CONTAINER ID(容器ID)。
# 查看正在运行的容器 docker ps # 查看所有容器 docker ps -a
回显类似如下信息(容器ID为“5f45daf9eb8f”):
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 5f45daf9eb8f ascend-toolkit:6.3.RC1 "/bin/bash" 39 seconds ago Up 28 minutes boring_wright
- 删除正在运行的容器,需要先将容器停止运行。若删除的是已经停止运行的容器,请跳过该步骤。
docker stop CONTAINER ID # 命令示例 docker stop 5f45daf9eb8f
- 执行如下命令删除容器。
docker rm CONTAINER ID # 命令示例 docker rm 5f45daf9eb8f
- 删除镜像
容器镜像导出导入
用户可将容器导出为一个镜像文件,再导入其它服务器使用。
- 以root用户登录服务器。
- 执行docker ps -a命令查看容器。回显类似如下信息(该容器仅为示例,请用户以实际情况为准):
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES 2ad9695f9589 ascend-toolkit:6.3.RC1-ubuntu18.04-arm64 "/bin/bash" 41 hours ago Up 41 hours cranky_lamport
- 执行如下命令将容器保存成镜像。
docker commit CONTAINER ID image-name:tag
表7 命令参数说明 参数
参数说明
CONTAINER ID
容器ID。
image-name:tag
镜像名称与标签,用户可自定义。(例:ascend-toolkit:6.3.RC1-ubuntu18.04-arm64-20230109)。
命令示例如下:
docker commit 2ad9695f9589 ascend-toolkit:6.3.RC1-ubuntu18.04-arm64-20230109
- 执行docker images命令查看镜像。回显类似如下信息(该镜像仅为示例,请用户以实际情况为准):
REPOSITORY TAG IMAGE ID CREATED SIZE ascend-toolkit 6.3.RC1-ubuntu18.04-arm64-20230109 c885a9197446 9 seconds ago 5.62GB
- 执行如下命令保存镜像文件。
docker save -o image.tar image-name:tag
表8 命令参数说明 参数
参数说明
image.tar
镜像压缩文件名称,用户可自定义。(例:ascend-toolkit.tar)
image-name:tag
镜像名称与标签,填写3中保存的镜像和tag(如“ascend-toolkit:6.3.RC1-ubuntu18.04-arm64-20230109”)。
命令示例如下:
docker save -o ascend-toolkit.tar ascend-toolkit:6.3.RC1-ubuntu18.04-arm64-20230109
镜像打包完成后,会在当前目录下生成,执行ls命令查看。
[root@localhost zzh]# ls ascend-toolkit.tar
- 将生成的镜像文件下载至本地,再将镜像文件上传到另一台服务器的任意目录(如“/home”),在存放镜像的目录下执行docker load -i ascend-toolkit.tar命令导入镜像,再执行docker images命令查看镜像是否已导入,回显如下镜像信息表示导入成功。
REPOSITORY TAG IMAGE ID CREATED SIZE ascend-toolkit 6.3.RC1-ubuntu18.04-arm64-20230109 c885a9197446 About an hour ago 5.62GB