MindX DL管理的训练节点出现故障(安装昇腾处理器并启用NodeD的节点网络故障或者芯片故障)后,MindX DL将对故障节点进行隔离,并根据任务预设的规模和当前集群中可用的节点数重新设置任务副本数,然后进行重调度和重训练(需进行脚本适配)。
- 使用此特性必须在待监测故障的节点上配置启用NodeD监测,配置方式参考NodeD配置。
- 新任务副本数范围为[minReplicas, replicas],具体数值由当前集群中的可用节点数确定。
- 在重调度策略开启的情况下,Ascend Device Plugin的异常也会触发故障重调度。