特性说明
- 使用此特性必须在待监测故障的节点上配置启用NodeD监测,配置方式参考断点续训特性中的节点使用NodeD监测配置开关。
- 新任务副本数范围为[minReplicas, replicas],具体数值由当前集群中的可用节点数确定,多节点分布式训练时有效。
- 在重调度策略开启的情况下,Ascend Device Plugin的异常也会触发故障重调度。
- 用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。
- 使用单机多卡进行训练出现故障时,优先按照原任务规格进行恢复,且任务规格遵循8/4/2/1卡的恢复策略。
- 最小业务系统支持的系统规格如下表。
表1 系统规格 类型
配置
服务器
Atlas 800 训练服务器(型号:9000)(NPU满配)
训练框架
MindSpore/TensorFlow/PyTorch,其中断点续训特性中的临终遗言功能只支持MindSpore框架。
父主题: 最小业务系统使用示例