集群基本概念

一般而言,集群是由多台机器组成的集合,其整体性能是多台机器性能的共同体现。因此,当遇到集群性能问题时,定位这些问题往往更加复杂和抽象。在此,我们先简单讨论集群的构成和集群性能定位的基础思路,而在本章节中,主要集中讨论集群用于训练模型的应用场景。

对于模型训练而言,分为存储、计算和通信三个主要的行为模式。存储包含host内存、device(这里主要指昇腾产品)内存和大容量磁盘等,用来存储模型训练所需的模型权重、训练数据以及保存的数据。计算则比较简单,主要包含CPU和NPU的计算。集群的通信,不仅包含常规意义上单机内部的通信和机器节点之间的通信,还包含通信所需的总线、交换机等硬件资源。

对于大规模训练而言,三者均会对训练性能产生影响,以下分别说明。