启动Ascend Operator

本章节指导用户将安装好的Ascend Operator组件启动起来,具体操作如下。

操作步骤

  1. 以root用户登录K8s管理节点,并执行以下命令,查看Ascend Operator镜像和版本号是否正确。

    docker images | grep ascend-operator
    示例如下:
    root@ubuntu:# docker images | grep ascend-operator
    ascend-operator                      v5.0.RC1              c532e9d0889c        About an hour ago         137MB
    • 是,执行2
    • 否,请参见制作镜像,完成镜像制作和分发。

  2. Ascend Operator软件包解压目录(以“/home/ascend-operator”为例)下的yaml文件拷贝到K8s管理节点上任意目录(以“/home/ascend-operator”为例)。如果Ascend Operator软件包在K8s管理节点上解压,可以不用进行拷贝操作。

    cd /home/ascend-operator
    scp root@{软件包解压节点IP地址}:/home/ascend-operator/ascend-operator-v{version}.yaml ./

  3. 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改yaml文件中Ascend Operator的启动参数。启动参数请参见表1,可执行ascend-operator -h查看参数说明。
  4. 执行以下命令,启动Ascend-operator。

    kubectl apply -f ascend-operator-v{version}.yaml

    启动示例如下,出现Running表示组件启动成功:

    root@ubuntu:/home/ascend-resilience-controller# kubectl apply -f ascend-operator-v5.0.RC1.yaml
    deployment.apps/ascend-operator-manager created
    serviceaccount/ascend-operator-manager created
    clusterrole.rbac.authorization.k8s.io/ascend-operator-manager-role created
    clusterrolebinding.rbac.authorization.k8s.io/ascend-operator-manager-rolebinding created
    customresourcedefinition.apiextensions.k8s.io/ascendjobs.mindxdl.gitee.com created
    root@ubuntu:/home/ascend-operator# kubectl get pod -n mindx-dl
    NAME                                         READY   STATUS    RESTARTS   AGE
    ...
    ascend-operator-7667495b6b-hwmjw   1/1    Running   0          11s
    ...

参数说明

表1 Ascend Operator启动参数

参数

类型

默认值

说明

-version

bool

false

Ascend Operator二进制版本号。

-logLevel

int

0

日志级别:

  • -1:debug
  • 0:info
  • 1:warning
  • 2:error
  • 3:critical

-maxAge

int

7

日志备份时间限制,取值范围为7~700,单位为天。

-isCompress

bool

false

当日志文件大小达到转储阈值时,是否对日志文件进行压缩转储(该参数后面将会弃用)。

-kubeconfig

string

空字符串

kubeconfig的路径,当程序运行于集群外时必须配置。

-logFile

string

/var/log/mindx-dl/ascend-operator/ascend-operator.log

日志文件。

说明:

单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。

-maxBackups

int

30

转储后日志文件保留个数上限,取值范围为(0,30],单位为个。

-enableGangScheduling

bool

true

是否启用“gang”策略调度,默认开启。开启时根据任务指定的调度器进行任务调度。

-h

不涉及

显示帮助信息。