节点故障规则:当NodeD最近一次上报心跳之后一段时间内未再次上报心跳(大于两次心跳上报间隔的阈值)时,Resilience-Controller和Volcano就会认为NodeD所在节点故障,从而触发故障重调度。当后续NodeD两次心跳上报间隔小于等于阈值时,则认为NodeD所在节点恢复正常。计算公式:两次心跳上报间隔的阈值 = 心跳发送间隔配置 x 3,其中3表示Resilience-Controller和Volcano会重试3次。
- 断点续训特性的临终遗言功能中使用了SigTerm和SigInt的信号量。
- 断点续训特性的临终遗言功能不支持对保存的checkpoint文件加解密。