环境要求

硬件环境

安装前,需要检查以下硬件配置,如表1所示。

表1 硬件环境

类型

配置参考

服务器(单机场景)

  • Atlas 800 训练服务器(型号:9000)
  • Atlas 800T A2 训练服务器
  • Atlas 900 A3 SuperPoD 超节点

服务器(集群场景)

计算节点:

  • Atlas 800 训练服务器(型号:9000)
  • Atlas 800T A2 训练服务器
  • Atlas 900 A3 SuperPoD 超节点

存储节点:存储服务器

网络

  • 带外管理(BMC):≥1Gbit/s
  • 带内管理(SSH):≥1Gbit/s
  • 业务面:≥10Gbit/s
  • 存储面:≥25Gbit/s
  • 参数面:100Gbit/s

软件环境

安装前,需要完成以下环境的安装,如表2所示。

表2 软件环境

软件

版本

安装位置

获取方式

操作系统

  • CentOS 7.6
  • Ubuntu 18.04
  • Ubuntu 20.04
  • Ubuntu 22.04

所有节点

-

Python

3.7~3.11

计算节点

用户安装

Torch

2.1.0

计算节点

用户安装

torch_npu

7.0.RC1

计算节点

用户安装

CANN

8.1.RC1

计算节点

用户安装

驱动与固件

25.0.RC1

计算节点

用户安装