开发者
资源

卸载

卸载MindCluster Ascend Docker Runtime

  • 情况一:使用不同安装路径。

    用户在卸载MindCluster Ascend Docker Runtime时需要针对不同容器引擎,根据步骤1进行两次卸载操作,每次卸载需要指定相应的安装路径,即--install-path参数。

  • 情况二:使用相同安装路径。

    用户在卸载MindCluster Ascend Docker Runtime时,只需根据步骤1进行一次卸载操作,卸载完成之后需要手动将另一引擎的daemon.json文件还原为MindCluster Ascend Docker Runtime安装之前的内容。

若用户需要保留其中一个容器引擎,需要在MindCluster Ascend Docker Runtime卸载之后,针对相应场景进行重新安装。

  1. 可以选择以下方式中的一种卸载MindCluster Ascend Docker Runtime软件。
    • 方式一:(推荐)使用软件包卸载
      1. 首先进入安装包(run包)所在路径。
        cd <path to run package>
      2. 执行以下卸载命令。
        • 执行以下命令,在默认路径下卸载MindCluster Ascend Docker Runtime
          ./Ascend-docker-runtime_{version}_linux-{arch}.run --uninstall
        • 执行以下命令,在指定路径下卸载MindCluster Ascend Docker Runtime
          ./Ascend-docker-runtime_{version}_linux-{arch}.run --uninstall --install-path=<path>
        回显示例如下,表示卸载成功。
        Uncompressing ascend-docker-runtime  100%
        ...
        [INFO] Ascend Docker Runtime uninstall success
    • 方式二:使用脚本卸载
      1. 首先进入MindCluster Ascend Docker Runtime的安装路径下的“script”目录(默认安装路径为:“/usr/local/Ascend/Ascend-Docker-Runtime”):
        cd /usr/local/Ascend/Ascend-Docker-Runtime/script
      2. 运行卸载的脚本进行卸载。
        ./uninstall.sh

      回显示例如下,表示卸载成功。

      [INFO]: You will recover Docker's daemon
      ...
      [INFO] uninstall.sh exec success
  2. 卸载MindCluster Ascend Docker Runtime后,需要还原修改的配置文件。
    • Containerd场景:请参见安装章节步骤6修改内容,还原config.toml配置文件。
    • K8s集成Containerd场景:请参见安装章节步骤5步骤6修改内容,还原config.toml配置文件和kubeadm-flags.env配置文件。
  3. 重启服务。
    • Docker场景(或K8s集成Docker场景
      systemctl daemon-reload && systemctl restart docker
    • Containerd场景(或K8s集成Containerd场景)
      systemctl daemon-reload && systemctl restart containerd

卸载除MindCluster Ascend Docker Runtime外的其他组件

支持卸载集群调度组件,用户可以卸载组件后重新安装最新版本组件。通过逐一卸载各组件,并删除对应的命名空间、日志目录、配置文件等,请根据安装方式选择对应的卸载方式。

  1. 卸载组件。根据组件的安装方式,选择以下对应的卸载方式。
    • 通过容器方式卸载。各组件卸载方法类似,均为进入该组件配置文件yaml所在目录,并执行删除操作实现,此操作需要在K8s的管理节点操作。以卸载MindCluster HCCL Controller为例说明,请用户自行完成其余组件卸载。
      1. 以root用户登录管理节点。
      2. 进入MindCluster HCCL Controller配置文件yaml所在目录(如:“/home/ascend-hccl-controller”)。
        cd /home/ascend-hccl-controller
      3. MindCluster HCCL Controller组件安装环境下,执行以下命令,卸载MindCluster HCCL Controller
        kubectl delete -f hccl-controller-v{version}.yaml
        回显示例如下:
        serviceaccount "hccl-controller" deleted
        clusterrole.rbac.authorization.k8s.io "pods-hccl-controller-role" deleted
        clusterrolebinding.rbac.authorization.k8s.io "hccl-controller-rolebinding" deleted
        deployment.apps "hccl-controller" deleted

      MindCluster Ascend Device Plugin配合MindCluster Volcano使用时,会创建ConfigMap,执行如下命令进行删除。

      kubectl delete cm mindx-dl-deviceinfo-<node-name> -n kube-system
    • 通过二进制方式卸载。以卸载MindCluster NPU Exporter为例说明,请用户自行完成其余组件卸载。
      1. 以root用户登录组件部署的节点。
      2. MindCluster NPU Exporter组件安装环境下,依次执行如下命令卸载MindCluster NPU Exporter组件。
        systemctl stop npu-exporter.service
        systemctl disable npu-exporter.service
        chattr -i /etc/systemd/system/npu-exporter.service
        rm -f /etc/systemd/system/npu-exporter.service
        systemctl daemon-reload
        systemctl reset-failed
        chattr -i /usr/local/bin/npu-exporter
        rm -f /usr/local/bin/npu-exporter
  2. 删除命名空间。MindCluster NPU Exporter的命名空间npu-exporter和MindCluster Volcano的命名空间volcano-system在卸载组件时就已经同步删除,用户可以跳过本步骤。

    执行如下命令,卸载安装集群调度组件时创建的namespace。删除namespace会删除该namespace下的所有资源,请确认后再执行。

    kubectl delete ns mindx-dl
    回显示例如下:
    namespace "mindx-dl" deleted
  3. 删除日志文件。参考创建日志目录章节,在对应节点上删除集群调度组件的日志目录。以MindCluster HCCL Controller为例,请确认后再删除。
    rm -rf /var/log/mindx-dl/hccl-controller
  4. (可选)卸载MindCluster Resilience Controller时,若导入了证书和KubeConfig文件,则需要删除证书和KubeConfig文件,请确认后再删除。
    rm -rf /etc/mindx-dl/resilience-controller