安装Resilience Controller
- 使用弹性训练时,必须安装Resilience Controller。Resilience Controller连接K8s时,可以选择使用ServiceAccount或KubeConfig文件进行认证,两种方式差异可参考使用ServiceAccount和KubeConfig差异。
- 不使用弹性训练的用户,可以不安装Resilience Controller,请直接跳过本章节。
操作步骤
- 以root用户登录K8s管理节点,并执行以下命令,查看Resilience Controller镜像和版本号是否正确。
docker images | grep resilience-controller
- 将Resilience Controller软件包解压目录下的yaml文件,拷贝到K8s管理节点上任意目录。
- 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改yaml文件中Resilience Controller的启动参数。启动参数请参见表1,可执行./resilience-controller -h查看参数说明。
- 在管理节点的yaml所在路径,执行以下命令,启动Resilience Controller。
- 如果没有导入KubeConfig证书,执行如下命令。
kubectl apply -f resilience-controller-v{version}.yaml
- 如果导入了KubeConfig证书,执行如下命令。
kubectl apply -f resilience-controller-without-token-v{version}.yaml
启动示例如下:
root@ubuntu:/home/ascend-resilience-controller# kubectl apply -f resilience-controller-v6.0.0.yaml serviceaccount/resilience-controller createdclusterrole.rbac.authorization.k8s.io/pods-resilience-controller-role createdclusterrolebinding.rbac.authorization.k8s.io/resilience-controller-rolebinding createddeployment.apps/resilience-controller created [root@localhost resilience-controller]# kubectl apply -f resilience-controller-without-token-v6.0.0.yaml deployment.apps/resilience-controller created
- 如果没有导入KubeConfig证书,执行如下命令。
- 执行以下命令,查看组件是否安装成功。
kubectl get pod -n mindx-dl
回显示例如下,出现Running表示组件启动成功。
1 2 3 4
NAME READY STATUS RESTARTS AGE ... resilience-controller-7667495b6b-hwmjw 1/1 Running 0 11s ...
参数说明
参数 |
类型 |
默认值 |
说明 |
---|---|---|---|
-version |
bool |
false |
是否查询Resilience Controller版本号。
|
-logLevel |
int |
0 |
日志级别:
|
-maxAge |
int |
7 |
日志备份时间限制,取值范围为7~700,单位为天。 |
-logFile |
string |
/var/log/mindx-dl/resilience-controller/run.log |
日志文件。
说明:
单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。转储后文件的命名格式为:run-触发转储的时间.log,如run-2023-10-07T03-38-24.402.log。 |
-maxBackups |
int |
30 |
转储后日志文件保留个数上限,取值范围为1~30,单位为个。 |
-h或者-help |
无 |
无 |
显示帮助信息。 |