开发者
资源

环境要求

硬件环境

安装前,需要检查以下硬件配置,如表1所示。

表1 硬件环境

类型

配置参考

服务器(单机场景)

  • Atlas 800 训练服务器(型号:9000)
  • Atlas 800T A2 训练服务器

服务器(集群场景)

  • 计算节点:Atlas 800 训练服务器(型号:9000)
  • Atlas 800T A2 训练服务器

存储节点:存储服务器

网络

  • 带外管理(BMC):≥1Gbit/s
  • 带内管理(SSH):≥1Gbit/s
  • 业务面:≥10Gbit/s
  • 存储面:≥25Gbit/s
  • 参数面:100Gbit/s

软件环境

安装前,需要完成以下环境的安装,如表2所示。

表2 软件环境

软件

版本

安装位置

获取方式

操作系统

  • CentOS 7.6
  • Ubuntu 18.04
  • Ubuntu 20.04

所有节点

-

Python

3.7.5~3.10

计算节点

用户安装

Torch

  • 1.11.0
  • 2.1.0

计算节点

用户安装

torch_npu

  • 1.11.0.post5~post10
  • 2.1.0

计算节点

用户安装

CANN

  • 7.0.RC1.5
  • 8.0.RC1

计算节点

用户安装

驱动与固件

  • 23.0.RC3.6
  • 24.1.RC1

计算节点

用户安装