卸载
- 卸载Ascend Docker Runtime组件,请参见卸载MindCluster Ascend Docker Runtime进行操作。
- 卸载MindCluster NPU Exporter、MindCluster Ascend Device Plugin、MindCluster Volcano、MindCluster ClusterD、MindCluster Ascend Operator、MindCluster HCCL Controller、MindCluster NodeD和MindCluster Resilience Controller,请参见卸载除MindCluster Ascend Docker Runtime外的其他组件进行操作。
卸载MindCluster Ascend Docker Runtime
- 情况一:使用不同安装路径。
用户在卸载MindCluster Ascend Docker Runtime时需要针对不同容器引擎,根据步骤1进行两次卸载操作,每次卸载需要指定相应的安装路径,即--install-path参数。
- 情况二:使用相同安装路径。
用户在卸载MindCluster Ascend Docker Runtime时,只需根据步骤1进行一次卸载操作,卸载完成之后需要手动将另一引擎的daemon.json文件还原为MindCluster Ascend Docker Runtime安装之前的内容。
若用户需要保留其中一个容器引擎,需要在MindCluster Ascend Docker Runtime卸载之后,针对相应场景进行重新安装。
- 可以选择以下方式中的一种卸载MindCluster Ascend Docker Runtime软件。
- 方式一:(推荐)使用软件包卸载
- 首先进入安装包(run包)所在路径。
cd <path to run package>
- 执行以下卸载命令。
- 执行以下命令,在默认路径下卸载MindCluster Ascend Docker Runtime。
./Ascend-docker-runtime_{version}_linux-{arch}.run --uninstall - 执行以下命令,在指定路径下卸载MindCluster Ascend Docker Runtime。
./Ascend-docker-runtime_{version}_linux-{arch}.run --uninstall --install-path=<path>
回显示例如下,表示卸载成功。Uncompressing ascend-docker-runtime 100% ... [INFO] Ascend Docker Runtime uninstall success
- 执行以下命令,在默认路径下卸载MindCluster Ascend Docker Runtime。
- 首先进入安装包(run包)所在路径。
- 方式二:使用脚本卸载
- 首先进入MindCluster Ascend Docker Runtime的安装路径下的“script”目录(默认安装路径为:“/usr/local/Ascend/Ascend-Docker-Runtime”):
cd /usr/local/Ascend/Ascend-Docker-Runtime/script
- 运行卸载的脚本进行卸载。
./uninstall.sh
回显示例如下,表示卸载成功。
[INFO]: You will recover Docker's daemon ... [INFO] uninstall.sh exec success
- 首先进入MindCluster Ascend Docker Runtime的安装路径下的“script”目录(默认安装路径为:“/usr/local/Ascend/Ascend-Docker-Runtime”):
- 方式一:(推荐)使用软件包卸载
- 卸载MindCluster Ascend Docker Runtime后,需要还原修改的配置文件。
- 重启服务。
- Docker场景(或K8s集成Docker场景)
systemctl daemon-reload && systemctl restart docker
- Containerd场景(或K8s集成Containerd场景)
systemctl daemon-reload && systemctl restart containerd
- Docker场景(或K8s集成Docker场景)
卸载除MindCluster Ascend Docker Runtime外的其他组件
支持卸载集群调度组件,用户可以卸载组件后重新安装最新版本组件。通过逐一卸载各组件,并删除对应的命名空间、日志目录、配置文件等,请根据安装方式选择对应的卸载方式。
- 卸载组件。根据组件的安装方式,选择以下对应的卸载方式。
- 通过容器方式卸载。各组件卸载方法类似,均为进入该组件配置文件yaml所在目录,并执行删除操作实现,此操作需要在K8s的管理节点操作。以卸载MindCluster HCCL Controller为例说明,请用户自行完成其余组件卸载。
- 以root用户登录管理节点。
- 进入MindCluster HCCL Controller配置文件yaml所在目录(如:“/home/ascend-hccl-controller”)。
cd /home/ascend-hccl-controller
- 在MindCluster HCCL Controller组件安装环境下,执行以下命令,卸载MindCluster HCCL Controller。
kubectl delete -f hccl-controller-v{version}.yaml回显示例如下:serviceaccount "hccl-controller" deleted clusterrole.rbac.authorization.k8s.io "pods-hccl-controller-role" deleted clusterrolebinding.rbac.authorization.k8s.io "hccl-controller-rolebinding" deleted deployment.apps "hccl-controller" deleted
MindCluster Ascend Device Plugin配合MindCluster Volcano使用时,会创建ConfigMap,执行如下命令进行删除。
kubectl delete cm mindx-dl-deviceinfo-<node-name> -n kube-system
- 通过二进制方式卸载。以卸载MindCluster NPU Exporter为例说明,请用户自行完成其余组件卸载。
- 以root用户登录组件部署的节点。
- 在MindCluster NPU Exporter组件安装环境下,依次执行如下命令卸载MindCluster NPU Exporter组件。
systemctl stop npu-exporter.service systemctl disable npu-exporter.service chattr -i /etc/systemd/system/npu-exporter.service rm -f /etc/systemd/system/npu-exporter.service systemctl daemon-reload systemctl reset-failed chattr -i /usr/local/bin/npu-exporter rm -f /usr/local/bin/npu-exporter
- 通过容器方式卸载。各组件卸载方法类似,均为进入该组件配置文件yaml所在目录,并执行删除操作实现,此操作需要在K8s的管理节点操作。以卸载MindCluster HCCL Controller为例说明,请用户自行完成其余组件卸载。
- 删除命名空间。MindCluster NPU Exporter的命名空间npu-exporter和MindCluster Volcano的命名空间volcano-system在卸载组件时就已经同步删除,用户可以跳过本步骤。
执行如下命令,卸载安装集群调度组件时创建的namespace。删除namespace会删除该namespace下的所有资源,请确认后再执行。
kubectl delete ns mindx-dl
回显示例如下:namespace "mindx-dl" deleted
- 删除日志文件。参考创建日志目录章节,在对应节点上删除集群调度组件的日志目录。以MindCluster HCCL Controller为例,请确认后再删除。
rm -rf /var/log/mindx-dl/hccl-controller
- (可选)卸载MindCluster Resilience Controller时,若导入了证书和KubeConfig文件,则需要删除证书和KubeConfig文件,请确认后再删除。
rm -rf /etc/mindx-dl/resilience-controller