昇腾社区首页
中文
注册
开发者
下载

简介

MindCluster集群调度组件结合MindCluster Ascend FaultDiag(故障诊断工具)提供的在线诊断能力,为集群中的慢节点&慢网络故障提供诊断功能。

使用前准备

使用慢节点&慢网络故障诊断功能前,需增加NodeD中CPU和内存的资源大小,在NodeD启动YAML文件中更改资源信息。

当前YAML文件内容如下:

resources:
            requests:
              memory: 300Mi
              cpu: 500m
            limits:
              memory: 300Mi
              cpu: 500m

修改后YAML文件内容如下:

resources:
            requests:
              memory: 10Gi
              cpu: 5000m
            limits:
              memory: 10Gi
              cpu: 5000m

部署形态

ClusterD与FD-OL(Fault Diagnose Online)框架在同一进程中,都部署在管理节点。ClusterD启动时将自动拉起FD-OL框架。