环境要求

硬件环境

安装前,需要检查以下硬件配置,如表1所示。

表1 硬件环境

类型

配置参考

服务器(单机场景)

Atlas 800 训练服务器(型号:9000)

服务器(集群场景)

计算节点:Atlas 800 训练服务器(型号:9000)

存储节点:存储服务器

内存

>64GB

磁盘空间

>1TB

磁盘空间规划请参见表3

网络

  • 带外管理(BMC):≥1Gbit/s
  • 带内管理(SSH):≥1Gbit/s
  • 业务面:≥10Gbit/s
  • 存储面:≥25Gbit/s
  • 参数面:100Gbit/s

软件环境

安装前,需要完成以下环境的安装,如表2所示。

表2 软件环境

软件

版本

安装位置

获取方式

操作系统

  • CentOS 7.6 Arm
  • CentOS 7.6 x86
  • openEuler 20.03 Arm
  • openEuler 20.03 x86
  • openEuler 22.03 Arm
  • openEuler 22.03 x86
  • Ubuntu 20.04 Arm
  • Ubuntu 20.04 x86
  • Ubuntu 18.04.5 Arm
  • Ubuntu 18.04.5 x86
  • Ubuntu 18.04.1 Arm
  • Ubuntu 18.04.1 x86
  • Kylin V10 SP2 Arm
  • Kylin V10 SP2 x86
  • UOS20 1020e Arm

所有节点

-

Python

3.7~3.10版本

计算节点

用户安装

expect

1.1及以上版本

管理节点

用户安装

Torch

1.11.0

计算节点

用户安装

操作系统磁盘分区

操作系统磁盘分区推荐如表3所示。

表3 磁盘分区

分区

说明

大小

bootable flag

/boot

启动分区

500MB

on

/var

软件运行所产生的数据存放分区,如日志、缓存等

>300GB

off

/

主分区

>300GB

off