MindX DL中的集群调度组件管理的资源(如安装昇腾AI处理器并启用NodeD的节点)出现故障后,集群调度组件将对故障资源(对应芯片/节点)进行隔离并对故障发生时正在运行的训练任务自动进行重调度、重训练(需进行脚本适配)。
计算公式:两次心跳上报间隔的阈值 = 心跳发送间隔配置 x 3,其中3表示Volcano会重试3次。