多机多卡场景

环境准备

准备集群环境时，集群中的各个单机需要按照环境准备部署好环境，确保单机可以正常运行。

此外还需要进行按照如下操作进行集群配置。

分布式训练场景下，HCCL会使用Host服务器的部分端口进行集群信息收集，需要操作系统预留该部分端口。HCCL建议使用60000-60015端口，若通过环境变量HCCL_IF_BASE_PORT指定了Host网卡起始端口，则需要预留以该端口起始的16个端口。如果用户在物理机场景训练，则需要在物理机上配置以下命令；若是在容器场景训练，则需要在容器中配置以下命令。
- 若操作系统端口号预留仅需临时生效，可执行如下命令，临时生效的配置重启后会失效：
```
sysctl -w net.ipv4.ip_local_reserved_ports=60000-60015
```
- 若操作系统端口号预留需永久生效，可执行如下命令：
  1. 以root用户登录服务器，编辑“/etc/sysctl.conf”文件。
```
vim /etc/sysctl.conf
```
  2. 在“/etc/sysctl.conf”文件末尾加上net.ipv4.ip_local_reserved_ports=60000-60015，保存并退出。
  3. 执行如下命令使配置生效。
```
sysctl -p
```
集合通信仅支持1/2/4/8P粒度的分配。
以下操作除模型修改外，只需配置执行一次。

准备组网，以两台8卡服务器组网为例。
通过交换机或光口直连的方式完成计算设备组网搭建。

配置device IP。

在AI Server0上配置device IP，以下IP为示例。

   hccn_tool -i 0 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 1 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 2 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 3 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 4 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 5 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 6 -ip -s address 192.***.***.001 netmask 255.255.255.0
   hccn_tool -i 7 -ip -s address 192.***.***.001 netmask 255.255.255.0

在AI Server1上配置device IP，以下IP为示例。

   hccn_tool -i 0 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 1 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 2 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 3 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 4 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 5 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 6 -ip -s address 192.***.***.002 netmask 255.255.255.0
   hccn_tool -i 7 -ip -s address 192.***.***.002 netmask 255.255.255.0

配置device IP需遵守以下规则：

针对Atlas 训练系列产品，AI Server中的第0/4、1/5、2/6、3/7号device需处于同一网段，第0/1/2/3号device在不同网段，第4/5/6/7号device在不同网段；对于集群场景，各AI Server对应的位置的device需处于同一网段，AI Server0和AI Server1的0号网卡需处于同一网段、1号网卡需要在同一网段。
针对Atlas A2 训练系列产品，多台节点的NPU在同一网段即可。
每个IP都不能冲突，相同网段下的IP需在最后8位做区分。

使用hccn_tool 配置网络检测对象IP，从device0 - devcie7 配置8次。

hccn_tool -i 0 -netdetect -s address xx.xx.xx.xx
#-s address：xx.xx.xx.xx是另外一台机器的device i的IP
#-i：device序号

执行如下命令查看网络健康状态，确保两台机器间所有卡都连通。

for  i  in  {0..7}; do  hccn_tool -i $i -net_health -g; done

回显如下所示：

net health status: Success

表1 回显说明
字段	说明
net health status	网络健康状态。状态信息： 0：Success；1：Socket fail；2：Receive timeout；3：Unreachable；4：Time exceeded；5：Fault；6：Init；7：Thread error；8：Detect ip set；其它：Unknown。

使用hccn_tool工具验证device IP是否配置正确。
1. 查询每个device的ip：
```
hccn_tool -i 0 -ip -g
```
2. 打印查询结果:
```
ipaddr:192.***.***.001
netmask:255.255.255.0
```
  如果返回success则表示已经连通。

关闭防火墙。
- Ubuntu系统防火墙关闭命令。
```
ufw disable
```
- Redhat或CentOS 7系统防火墙关闭命令。
```
systemctl stop firewalld
```
确认交换机状态正常。
执行以下命令，返回值不为空则正常。
```
for i in {0..7}; do hccn_tool -i $i -lldp -g; done
```
修改模型。可参考模型脚本配置，将模型脚本上传至AI Server0和AI Server1任意路径下。
拉起多机多卡训练。需注意以下要点：
- 在所有脚本统一主节点的MASTER_PORT和MASTER_ADDR。
- 配置相应的rank与world_size。
查看host日志。
所有host日志统一保存在~/ascend/log路径下，用户可以在该路径下查看每个host的device日志。
由于Master节点允许处理的并发建链数受Linux内核参数“somaxconn”与“tcp_max_syn_backlog”的限制，所以，针对大规模集群组网，若“somaxconn”与“tcp_max_syn_backlog”取值较小会导致部分客户端概率性提前异常退出，导致集群初始化失败。
大规模集群组网场景下，建议用户根据集群数量适当调整“somaxconn”与“tcp_max_syn_backlog”参数的值，例如：
```
sysctl -w net.core.somaxconn=65535
sysctl -w net.ipv4.tcp_max_syn_backlog=65535
```
如果用户在物理机场景训练，则需要在物理机上配置以上命令；若是在容器场景训练，则需要在容器中配置以上命令。

模型脚本配置

本节以适配样例（DDP场景）章节的代码为样例，为用户介绍将单卡训练脚本修改为多卡训练脚本的核心步骤。

在主函数中添加如下代码。
1. 在shell脚本中循环传入local_rank变量作为指定的device。
  
  此操作以shell脚本方式修改为例，用户可参考拉起多卡训练脚本示例用其他方式进行修改。
```
local_rank = int(os.environ["LOCAL_RANK"]) 
```
2. 用local_rank自动获取device号。
```
device = torch.device('npu', local_rank)
```
3. 初始化，将通信方式设置为hccl。
```
torch.distributed.init_process_group(backend="hccl",rank=local_rank)
```

在获取训练数据集后，设置train_sampler。

train_sampler = torch.utils.data.distributed.DistributedSampler(train_data)

定义模型后，开启DDP模式。

model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[local_rank], output_device=local_rank)

将数据加载器train_dataloader与train_sampler相结合。

train_dataloader = DataLoader(dataset = train_data, batch_size=batch_size, sampler = train_sampler)

启动脚本配置

有4种脚本启动方式可拉起多卡训练：

shell脚本方式（推荐）
Python方式
torchrun方式
torch_npu_run方式（集群场景推荐）：此方式是torchrun在大集群场景的改进版，提升集群建链性能。

附录拉起双机16卡训练中，以一个简单模型脚本为样例，展示了每种拉起方式脚本代码的修改方法以及各种拉起方式的适配方法，用户可以参考学习。

集合通信存在如下约束：
- 数据并行模式中不同device上执行的图相同。
- 针对Atlas 训练系列产品：allreduce和reduce_scatter仅支持int8、int32、float16和float32数据类型。
- 针对Atlas A2 训练系列产品：allreduce和reduce_scatter仅支持int8、int32、float16、float32和bfp16数据类型。
- 针对Atlas 训练系列产品，如果使用1台训练服务器（Server），要求实际参与集合通信的NPU数目只能为1/2/4/8，且0-3卡和4-7卡各为一个组网。使用2张卡或4张卡训练时，不支持跨组网创建设备集群。
- 针对Atlas 训练系列产品，Server集群场景下（即由集群管理主节点和一组训练服务器组成训练服务器集群），要求参与集合通信的NPU数目只能为1*n、2*n、4*n、8*n（其中n为参与训练的Server个数，上限为512）。且n为2的指数倍情况下，集群性能最好，建议用户优先采用此种方式进行集群组网。
- 针对Atlas A2 训练系列产品，Server集群场景（即由集群管理主节点和一组训练服务器组成训练服务器集群）下要求参与集合通信的NPU数目为（1~8）*n（其中n为参与训练的Server个数，上限为1152），其中，n为2的指数倍情况下，集群性能最好，建议用户优先采用此种方式进行集群组网。同时建议每个Sever中参与集合通信的NPU数量保持一致，若不一致，会造成性能裂化。
针对Atlas A2 训练系列产品，若用户准备进行2卡训练，可将8卡训练脚本进行改写，改为2卡训练脚本。可参见以下修改方法：
1. 若8卡脚本的batchsize是单卡脚本的batchsize的8倍，则将8卡训练时的batch size和learning rate同时除以4，作为2卡训练时的batch size和learning rate。
2. 如果使用for循环启动训练入口脚本，则将for循环的次数改为2次。
3. world size或者rank size修改为2，并确保训练脚本中dist.init_process_group()中world_size参数为2。
4. 如果有指定device list参数，且取值范围为0-7，则将其改为0-1。
一个Device对应执行一个训练进程，当前不支持多进程在同一个Device上进行训练。

父主题： 模型脚本与启动脚本配置