公共故障

公共故障指的是其他故障发送方(非MindCluster组件)上报的故障,公共故障包括以下几种类型:NPU故障、节点故障、网络故障和存储故障。

ClusterD支持接收公共故障的前提是需要在节点上安装Ascend Device Plugin,并且生成了相应的device-info-cm。

上报机制

公共故障发送方发现故障后,将通过ConfigMap或gRPC方式,将获取到的故障信息发送给ClusterDClusterD会将接收到的信息进行汇总写入cluster-info-device-cm,再上报给Ascend-volcano-plugin

图1 公共故障上报

支持的故障处理类型

Job级别重调度、Pod级别重调度、进程级别重调度

(可选)配置故障检测的级别和发送方

断点续训针对公共故障提供了默认的故障级别以及支持的故障发送方。若用户需要修改公共故障的级别及故障发送方,可参见公共故障。若无特殊需求,请勿随意修改。