卸载组件
集群调度组件不支持升级,但是支持卸载集群调度组件,用户可以卸载组件后重新安装最新版本组件。通过逐一卸载各组件,以及对应的命名空间、日志目录、配置文件等实现组件卸载,请根据安装方式选择对应的卸载方式。
二进制方式
以卸载MindCluster NPU Exporter为例说明,请用户自行完成其余组件卸载。
- 以root用户登录组件部署的节点。
- 在MindCluster NPU Exporter组件安装环境下,依次执行如下命令卸载MindCluster NPU Exporter组件。
systemctl stop npu-exporter.service systemctl disable npu-exporter.service chattr -i /etc/systemd/system/npu-exporter.service rm -f /etc/systemd/system/npu-exporter.service systemctl daemon-reload systemctl reset-failed chattr -i /usr/local/bin/npu-exporter rm -f /usr/local/bin/npu-exporter
容器方式
各组件卸载方法类似,均为进入该组件配置文件yaml所在目录,并执行删除操作实现,此操作需要在K8s的管理节点操作。以卸载MindCluster HCCL Controller为例说明,请用户自行完成其余组件卸载。
- 以root用户登录管理节点。
- 进入MindCluster HCCL Controller配置文件yaml所在目录(如:“/home/ascend-hccl-controller”)。
cd /home/ascend-hccl-controller
- 在MindCluster HCCL Controller组件安装环境下,执行以下命令,卸载MindCluster HCCL Controller。
kubectl delete -f hccl-controller-v{version}.yaml
回显示例如下:serviceaccount "hccl-controller" deleted clusterrole.rbac.authorization.k8s.io "pods-hccl-controller-role" deleted clusterrolebinding.rbac.authorization.k8s.io "hccl-controller-rolebinding" deleted deployment.apps "hccl-controller" deleted

MindCluster Ascend Device Plugin配合MindCluster Volcano使用时,会创建ConfigMap,执行如下命令进行删除。
kubectl delete cm mindx-dl-deviceinfo-<node-name> -n kube-system
父主题: 卸载集群调度组件