升级说明
本章节旨在指导用户将MindCluster集群调度组件升级到新版本。MindCluster集群调度组件的升级支持以下2种方式。
- 全量升级:此种升级方式不仅会升级各组件的二进制镜像文件,而且升级后可对组件的配置文件进行修改。此种升级方式支持跨版本升级,例如,用户可从5.0.x版本升级到7.0.x版本。
- 升级镜像:此种升级方式仅升级各组件的二进制文件,不支持修改权限、启动参数等,无需进行升级前环境检查。此种升级方式仅支持在同一个版本内进行升级。
本章节不适用的场景:用户对旧版本MindCluster集群调度组件的源代码(不含配置文件)进行了修改,请分析版本代码差异后再进行升级。
升级环境检查
在进行各组件的升级步骤前,请根据实际安装场景,选择相应的组件进行检查。
- 检查是否有正在运行的任务。若用户正在执行的任务,请等待任务执行完成或提前停止任务后,再升级MindCluster组件。
- 请执行以下命令检查是否有正在运行的任务。
kubectl get pods -A
回显示例如下。1 2
NAMESPACE NAME READY STATUS RESTARTS AGE default ubuntu-pod 1/1 Running 32 (118m ago) 3d18h ...
- 进入任务YAML所在路径,执行以下命令停止任务。
kubectl delete -f xxx.yaml # xxx表示任务YAML的名称,请根据实际情况填写
- 请执行以下命令检查是否有正在运行的任务。
- (可选)检查pingmesh灵衢网络检测开关是否已关闭。
- 登录环境,进入NodeD解压目录。
- 执行以下命令编辑pingmesh-config文件。
kubectl edit cm -n cluster-system pingmesh-config
如果回显如下所示,表示pingmesh灵衢网络检测开关已关闭。无需执行步骤3。
Error from server (NotFound): configmaps "pingmesh-config" not found
- (可选)修改activate字段的取值。
- 如果超节点ID在pingmesh-config文件中,修改该超节点ID字段下的activate为off。
- 如果超节点ID不在pingmesh-config文件中,可通过以下2种方式进行设置。
- 在配置文件中新增该超节点信息,并将activate为off。
- 删除pingmesh-config文件中所有超节点的信息,并将global配置中activate字段的值设置为off。
- 检查已安装的MindCluster组件。
- (可选)检查Elastic Agent组件。执行如下命令,进入容器内部,查看Elastic Agent组件安装状态。
docker run -it {训练镜像名称}:tag /bin/bash pip show mindx-elastic
回显如下,表示此镜像中已安装Elastic Agent组件。
1 2 3 4 5 6 7 8 9 10
Name: mindx_elastic Version: 7.1.rc1 Summary: Ascend MindX Elastic is a new library for fault tolerance training. Home-page: Author: Author-email: License: Location: /usr/local/python3/lib/python3.8/site-packages Requires: Required-by:
- (可选)检查TaskD组件。执行以下命令进入容器内部,查看TaskD组件安装状态。
docker run -it {训练镜像名称}:tag /bin/bash pip show taskd
回显如下,表示镜像中已安装TaskD组件。
Name: taskd Version: 7.0rc1 Summary: Ascend MindCluster taskd is a new library for training management Home-page: UNKNOWN Author: Author-email: License: UNKNOWN Location: /usr/local/python3/lib/python3.8/site-packages Requires: grpcio, protobuf, pyOpenSSL, torch, torch-npu Required-by:
- (可选)检查其他组件。参考组件状态确认,确认集群中节点是否安装了相应组件。
- (可选)检查Elastic Agent组件。执行如下命令,进入容器内部,查看Elastic Agent组件安装状态。
- (可选)若尚未安装MindCluster集群调度组件,请参考安装部署章节先安装组件,Elastic Agent、TaskD的安装步骤请参考制作镜像章节
父主题: 升级