昇腾社区首页
中文
注册

支持的产品列表

故障发生后,根据上报的故障信息,组件会对故障设备以及故障任务进行处理,以恢复训练。故障处理分为重调度优雅容错两种模式,各模式支持的产品列表如下。

重调度模式

重调度模式当前支持的产品和框架如表1所示。

表1 重调度支持的产品和框架

产品类型

硬件形态

训练框架

Atlas 训练系列产品

  • Atlas 800 训练服务器(型号 9000)(NPU满配)
  • Atlas 800 训练服务器(型号 9010)(NPU满配)
  • Atlas 800 训练服务器(型号 9000)(NPU半配)
  • Atlas 800 训练服务器(型号 9010)(NPU半配)
  • MindSpore
  • TensorFlow
  • PyTorch

Atlas A2 训练系列产品

  • Atlas 800T A2 训练服务器
  • Atlas 200T A2 Box16 异构子框
  • Atlas 900 A2 PoD 集群基础单元

Atlas 800 训练服务器的芯片工作模式为SMP模式,且每个Pod申请的NPU数量为1、2时,不支持使用重调度模式。查询和设置NPU芯片工作模式的详细介绍请参见Atlas 800 训练服务器 iBMC用户指南(型号 9000)中的“命令行介绍 > 服务器命令 > 查询和设置NPU芯片工作模式(npuworkmode)”章节。

优雅容错模式

优雅容错模式当前支持的产品和框架如表2所示。

表2 优雅容错支持的产品和框架

产品系列

产品名称

训练框架

Atlas 训练系列产品

  • Atlas 800 训练服务器(型号 9000)(NPU满配)
  • Atlas 800 训练服务器(型号 9010)(NPU满配)
  • Atlas 800 训练服务器(型号 9000)(NPU半配)
  • Atlas 800 训练服务器(型号 9010)(NPU半配)
  • MindSpore
  • PyTorch

Atlas A2 训练系列产品

  • Atlas 800T A2 训练服务器
  • Atlas 900 A2 PoD 集群基础单元
  • 优雅容错模式支持Atlas 800 训练服务器的芯片工作模式为SMP模式,训练任务规模为4N及8N,N为训练节点数。查询和设置NPU芯片工作模式的详细介绍请参见Atlas 800 训练服务器 iBMC用户指南(型号 9000)中的“命令行介绍 > 服务器命令 > 查询和设置NPU芯片工作模式(npuworkmode)”章节。
  • 优雅容错模式支持Atlas 800T A2 训练服务器Atlas 900 A2 PoD 集群基础单元的训练任务规模为8N,N为训练节点数。