硬件架构
集合通信库需要承载在特定的硬件之上,这里说的硬件,主要是多个昇腾AI处理器(即多个NPU,又称多张卡)组成的硬件形态。实际实现中,一般一个服务器组成一个AI节点,如果需要使用更大规模的昇腾组网,通常使用以太交换机将多个AI节点互联为一个AI集群。
AI节点硬件是由NPU、CPU、内存、硬盘等组成的硬件实体,本节主要体现集合通信相关的硬件TOPO结构。
AI节点硬件(8P形态)
昇腾典型的8P硬件TOPO如下图所示:
图1 典型8P硬件TOPO


该硬件形态中,8P昇腾NPU之间通过HCCS总线完成两两互联(Fullmesh),昇腾NPU与CPU之间通过PCIe总线互联。
AI节点硬件(16P形态)
昇腾典型的16P硬件TOPO如下图所示:
图2 典型16P硬件TOPO
该硬件形态中,NPU分为两个8P Fullmesh组,每个8P Fullmesh互连组内,8P昇腾NPU之间通过HCCS总线完成两两互联(Fullmesh),两个8P Fullmesh组之间通过PCIe-SW完成互连。CPU与NPU之间也是通过PCIe-SW互联。
父主题: 软硬件架构