节点故障

节点故障的发现主要通过NodeDVolcano组件实现。节点故障包括节点状态丢失和节点硬件故障,详细说明如下:

图1 节点故障上报

支持的故障处理类型

Job级别重调度、Pod级别重调度、进程级别重调度

(可选)配置故障检测的级别

断点续训针对节点故障中节点硬件故障的不同故障码,提供了默认的故障级别和对应级别的故障处理策略。若用户需要修改故障处理策略,可参见节点硬件故障。若无特殊需求,请勿随意修改。