昇腾社区首页
中文
注册

特性说明

  • 使用此特性必须在待监测故障的节点上配置启用NodeD监测,配置方式参考断点续训特性中的节点使用NodeD监测配置开关
  • 新任务副本数范围为[minReplicas, replicas],具体数值由当前集群中的可用节点数确定,多节点分布式训练时有效。
  • 在重调度策略开启的情况下,Ascend Device Plugin的异常也会触发故障重调度。
  • 用于检测NPU芯片间连通性的IP地址推荐配置为路由器的IP地址。
  • 使用单机多卡进行训练出现故障时,优先按照原任务规格进行恢复,且任务规格遵循8/4/2/1卡的恢复策略。
  • 最小业务系统支持的系统规格如下表。
    表1 系统规格

    类型

    配置

    服务器

    Atlas 800 训练服务器(型号:9000)(NPU满配)

    训练框架

    MindSpore/TensorFlow/PyTorch,其中断点续训特性中的临终遗言功能只支持MindSpore框架。