分布式训练脚本迁移
- 支持数据并行(Allreduce)
AllReduce是主流的数据并行架构,各个节点按照算法协同工作,适用于对训练算力要求高、设备规模大的场景。本节介绍如何将TensorFlow训练脚本在昇腾AI处理器上通过AllReduce架构进行分布式训练。
- 支持数据并行(PS-Worker)
在推荐网络中,特征数据通过embedding table保存,数据量最大可能达到TB(Terabyte,太字节,是一种信息计量单位,1TB=1012字节)级别,无法在Device侧保存,因此需要通过PS-Worker方式将数据保存在Host侧的内存中。本节介绍如何将TensorFlow训练脚本在昇腾AI处理器上通过PS-Worker架构进行分布式训练。
- Horovod脚本迁移
Horovod是基于TensorFlow、Keras、PyTorch以及MXNet的分布式训练框架,目的是提升分布式训练的性能。不同于传统的TensorFlow分布式训练采用PS-Worker架构,Horovod使用Allreduce进行聚合梯度,能够更好地利用带宽,解决PS worker的瓶颈问题。本节介绍如何迁移基于Horovod开发的分布式训练脚本,使其在昇腾AI处理器进行分布式训练。