昇腾社区首页
中文
注册

ClusterD

  • 使用整卡调度、静态vNPU调度、动态vNPU调度、断点续训、弹性训练、推理卡故障恢复或推理卡故障重调度的用户,必须安装ClusterD。集群中同时存在Ascend Device PluginNodeD组件时,ClusterD才能提供全量的信息收集服务。
  • 在安装ClusterD时,建议提前安装Volcano。若ClusterD先于Volcano安装,ClusterD所在的Pod可能会CrashLoopBackOff,需等待Volcano的Pod启动后,ClusterD才会恢复正常。
  • 仅使用容器化支持和资源监测的用户,可以不安装ClusterD,请直接跳过本章节。

操作步骤

  1. 以root用户登录K8s管理节点,并执行以下命令,查看ClusterD镜像和版本号是否正确。
    docker images | grep clusterd
    回显示例如下:
    1
    clusterd                   v7.1.RC1              c532e9d0889c        About an hour ago         126MB
    
  2. ClusterD软件包解压目录下的YAML文件,拷贝到K8s管理节点上任意目录。
  3. 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改YAML文件中ClusterD的启动参数。启动参数请参见表1,可以在ClusterD二进制包的目录下执行./clusterd -h查看参数说明。
  4. 在管理节点的YAML所在路径,执行以下命令,启动ClusterD
    kubectl apply -f clusterd-v{version}.yaml
    启动示例如下:
    clusterrolebinding.rbac.authorization.k8s.io/pods-clusterd-rolebinding created
    lease.coordination.k8s.io/cluster-info-collector created
    deployment.apps/clusterd created
    service/clusterd-grpc-svc created
  5. 执行以下命令,查看组件是否启动成功。
    kubectl get pod -n mindx-dl
    回显示例如下,出现Running表示组件启动成功。
    NAME                          READY   STATUS              RESTARTS   AGE
    clusterd-7844cb867d-fwcj7     0/1     Running            0          45s

参数说明

表1 ClusterD启动参数

参数

类型

默认值

说明

-version

bool

false

查询ClusterD版本号。

  • true:查询。
  • false:不查询。

-logLevel

int

0

日志级别:

  • -1:debug
  • 0:info
  • 1:warning
  • 2:error
  • 3:critical

-maxAge

int

7

日志备份时间,取值范围为7~700,单位为天。

-logFile

string

/var/log/mindx-dl/clusterd/clusterd.log

日志文件。

说明:

单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。转储后文件的命名格式为:clusterd-触发转储的时间.log,如:clusterd-2024-06-07T03-38-24.402.log。

-maxBackups

int

30

转储后日志文件保留个数上限,取值范围为1~30,单位为个。

-useProxy

bool

false

是否使用代理转发gRPC请求。

  • true:是
  • false:否
    说明:

    建议在启动YAML中将本参数取值配置为“true”,并对ClusterD进行安全加固,详细说明请参见ClusterD安全加固章节。

-h或者-help

显示帮助信息。