ClusterD
- 使用整卡调度、静态vNPU调度、动态vNPU调度、断点续训、弹性训练、推理卡故障恢复或推理卡故障重调度的用户,必须安装ClusterD。集群中同时存在Ascend Device Plugin和NodeD组件时,ClusterD才能提供全量的信息收集服务。
- 在安装ClusterD时,建议提前安装Volcano。若ClusterD先于Volcano安装,ClusterD所在的Pod可能会CrashLoopBackOff,需等待Volcano的Pod启动后,ClusterD才会恢复正常。
- 仅使用容器化支持和资源监测的用户,可以不安装ClusterD,请直接跳过本章节。
操作步骤
- 以root用户登录K8s管理节点,并执行以下命令,查看ClusterD镜像和版本号是否正确。
- 将ClusterD软件包解压目录下的YAML文件,拷贝到K8s管理节点上任意目录。
- 如不修改组件启动参数,可跳过本步骤。否则,请根据实际情况修改YAML文件中ClusterD的启动参数。启动参数请参见表1,可以在ClusterD二进制包的目录下执行./clusterd -h查看参数说明。
- 在管理节点的YAML所在路径,执行以下命令,启动ClusterD。
kubectl apply -f clusterd-v{version}.yaml
启动示例如下:clusterrolebinding.rbac.authorization.k8s.io/pods-clusterd-rolebinding created lease.coordination.k8s.io/cluster-info-collector created deployment.apps/clusterd created service/clusterd-grpc-svc created
- 执行以下命令,查看组件是否启动成功。
kubectl get pod -n mindx-dl
回显示例如下,出现Running表示组件启动成功。NAME READY STATUS RESTARTS AGE clusterd-7844cb867d-fwcj7 0/1 Running 0 45s

- 安装组件后,组件的Pod状态不为Running,可参考组件Pod状态不为Running章节进行处理。
- 安装组件后,组件的Pod状态为ContainerCreating,可参考集群调度组件Pod处于ContainerCreating状态章节进行处理。
- 启动组件失败,可参考启动集群调度组件失败,日志打印“get sem errno =13”章节信息。
- 组件启动成功,找不到组件对应的Pod,可参考组件启动YAML执行成功,找不到组件对应的Pod章节信息。
参数说明
参数 |
类型 |
默认值 |
说明 |
---|---|---|---|
-version |
bool |
false |
查询ClusterD版本号。
|
-logLevel |
int |
0 |
日志级别:
|
-maxAge |
int |
7 |
日志备份时间,取值范围为7~700,单位为天。 |
-logFile |
string |
/var/log/mindx-dl/clusterd/clusterd.log |
日志文件。 说明:
单个日志文件超过20 MB时会触发自动转储功能,文件大小上限不支持修改。转储后文件的命名格式为:clusterd-触发转储的时间.log,如:clusterd-2024-06-07T03-38-24.402.log。 |
-maxBackups |
int |
30 |
转储后日志文件保留个数上限,取值范围为1~30,单位为个。 |
-useProxy |
bool |
false |
是否使用代理转发gRPC请求。
|
-h或者-help |
无 |
无 |
显示帮助信息。 |
父主题: 手动安装