安装Resilience Controller

操作步骤

  1. 以root用户登录K8s管理节点,并执行以下命令,查看Resilience Controller镜像和版本号是否正确。

    docker images | grep resilience-controller
    回显示例如下:
    1
    resilience-controller                      v7.0.RC1              c532e9d0889c        About an hour ago         142MB
    

  2. Resilience Controller软件包解压目录下的YAML文件,拷贝到K8s管理节点上任意目录。
  3. 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改YAML文件中Resilience Controller的启动参数。启动参数的说明请参见表1,也可执行./resilience-controller -h查看参数说明。
  4. 在管理节点的YAML所在路径,执行以下命令,启动Resilience Controller

    • 如果没有导入KubeConfig证书,执行如下命令。
      kubectl apply -f resilience-controller-v{version}.yaml
    • 如果导入了KubeConfig证书,执行如下命令。
      kubectl apply -f resilience-controller-without-token-v{version}.yaml

    启动示例如下:

    root@ubuntu:/home/ascend-resilience-controller# kubectl apply -f resilience-controller-v7.0.RC1.yaml 
    serviceaccount/resilience-controller createdclusterrole.rbac.authorization.k8s.io/pods-resilience-controller-role createdclusterrolebinding.rbac.authorization.k8s.io/resilience-controller-rolebinding createddeployment.apps/resilience-controller created
    [root@localhost resilience-controller]# kubectl apply -f resilience-controller-without-token-v7.0.RC1.yaml 
    deployment.apps/resilience-controller created

  5. 执行以下命令,查看组件是否安装成功。

    kubectl get pod -n mindx-dl

    回显示例如下,出现Running表示组件启动成功。

    1
    2
    3
    4
    NAME                                            READY    STATUS      RESTARTS   AGE
    ...
    resilience-controller-7667495b6b-hwmjw   1/1     Running   0         11s
    ...
    

参数说明

表1 Resilience Controller启动参数

参数

类型

默认值

说明

-version

bool

false

是否查询Resilience Controller版本号。

  • true:查询。
  • false:不查询。

-logLevel

int

0

日志级别:

  • -1:debug
  • 0:info
  • 1:warning
  • 2:error
  • 3:critical

-maxAge

int

7

日志备份时间限制,取值范围为7~700,单位为天。

-logFile

string

/var/log/mindx-dl/resilience-controller/run.log

日志文件。

说明:

单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。转储后文件的命名格式为:run-触发转储的时间.log,如run-2023-10-07T03-38-24.402.log。

-maxBackups

int

30

转储后日志文件保留个数上限,取值范围为1~30,单位为个。

-h或者-help

显示帮助信息。