特性说明

使用此特性必须在待监测故障的节点上配置启用NodeD监测，配置方式参考断点续训特性中的节点使用NodeD监测配置开关。
新任务副本数范围为[minReplicas, replicas]，具体数值由当前集群中的可用节点数确定，多节点分布式训练时有效。
在重调度策略开启的情况下，Ascend Device Plugin的异常也会触发故障重调度。
用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。
使用单机多卡进行训练出现故障时，优先按照原任务规格进行恢复，且任务规格遵循8/4/2/1卡的恢复策略。

最小业务系统支持的系统规格如下表。

表1 系统规格
类型	配置
服务器	Atlas 800 训练服务器（型号：9000）（NPU满配）
训练框架	MindSpore/TensorFlow/PyTorch，其中断点续训特性中的临终遗言功能只支持MindSpore框架。

父主题： 最小业务系统使用示例