简介
MindCluster集群调度组件结合MindCluster Ascend FaultDiag(故障诊断工具)提供的在线诊断能力,为集群中的慢节点&慢网络故障提供诊断功能。
使用前准备
使用慢节点&慢网络故障诊断功能前,需增加NodeD中CPU和内存的资源大小,在NodeD启动YAML文件中更改资源信息。
当前YAML文件内容如下:
resources:
requests:
memory: 300Mi
cpu: 500m
limits:
memory: 300Mi
cpu: 500m
修改后YAML文件内容如下:
resources:
requests:
memory: 10Gi
cpu: 5000m
limits:
memory: 10Gi
cpu: 5000m
部署形态
ClusterD与FD-OL(Fault Diagnose Online)框架在同一进程中,都部署在管理节点。ClusterD启动时将自动拉起FD-OL框架。
父主题: 慢节点&慢网络故障