在深度学习中,当数据集和参数量的规模越来越大,训练所需的时间和硬件资源会随之增加,最后会变成制约训练的瓶颈。分布式并行训练,可以降低对内存、计算性能等硬件的需求,是进行训练的重要优化手段。
分布式训练通过将计算任务按照一定的方法拆分到不同的昇腾AI处理器上来加速模型的训练速度,拆分的计算任务之间通过集合通信来完成信息的汇总和交换,完成整个训练任务的并行处理,从而实现加快计算任务的目的。
根据并行的原理及模式不同,业界主流的并行类型有以下几种:
Server单机场景,即由1台训练服务器(Server)完成训练,每台Server包含8块昇腾AI处理器。其中参与集合通信的处理器数目只能为1/2/4/8,且0-3卡和4-7卡各为一个组网,使用2张卡或4张卡训练时,不支持跨组网创建设备集群。
Server集群场景,即由集群管理主节点+一组训练服务器(Server)组成训练服务器集群,Server当前支持的上限是512台。每台Server上包含8块昇腾AI处理器,Server集群场景下,参与集合通信的的昇腾AI处理器数目为8*n(其中n为参与训练的Server个数,最大支持512)。且n为2的指数倍情况下,集群性能最好,建议用户优先采用此种方式进行集群组网。
每个Server通过8个直出网口实现Server间的集合通信。如果用户需要指定参与集合通信的昇腾AI处理器数目为1*n/2*n/4*n(其中n为参与训练的Server个数),则可以通过集合通信接口create_group创建自定义group,指定参与集合通信的设备。
集群管理主节点支持集群及集群内设备的管理能力,同时支持整个集群内的分布式作业管理。
集群训练场景下,一个分布式训练执行流程如下:
训练作业经过集群管理主节点下发到训练服务器,由服务器上的作业Agent根据App指定的设备数量,启动相应个数的TensorFlow进程执行训练,一个TensorFlow进程和一个昇腾AI处理器对应。
当前训练卡场景支持单机单卡训练,以及多机多卡分布式训练场景。一张训练卡内含一片昇腾AI处理器。
多机分布式训练可以使用训练卡自出的100G网口进行Server间的传输,采用Ring + Halving-doubling算法完成集合通信功能。
使用注意事项: