术语与相关概念
为了您有更好的阅读体验,使用本文档前请先了解如下术语、缩略语及相关概念。
名称 |
说明 |
---|---|
NPU |
Neural Network Processing Unit,神经网络处理单元。 采用“数据驱动并行计算”的架构,擅长处理海量的视频和图像类多媒体业务数据,专门用于处理人工智能应用中的大量计算任务。 |
HCCL |
Huawei Collective Communication Library,华为集合通信库。 提供单机多卡以及多机多卡间的数据并行、模型并行集合通信方案。 |
HCCS |
Huawei Cache Coherence System,华为缓存一致性系统。 用于CPU/NPU之间的高速互联。 |
HCCP |
Huawei Collective Communication adaptive Protocol,集合通信适配协议。 提供跨NPU设备通信能力,向上屏蔽具体通信协议差异。 |
TOPO |
拓扑、拓扑结构。 一个局域网内或者多个局域网之间的设备连接所构成的网络配置或者布置。 |
PCIe |
Peripheral Component Interconnect Express,一种串行外设扩展总线标准,常用于计算机系统中的外设扩展。 |
PCIe-SW |
PCIe Switch,符合PCIe总线扩展的交换设备。 |
SDMA |
System Direct Memory Access,系统直接内存访问技术,简称DMA,允许外围设备直接访问系统内存,而不需要CPU的干预。 |
RDMA |
Remote Direct Memory Access,远程直接内存访问技术,能够直接将数据从一台机器的内存传输到另一台机器,无需双方操作系统的介入,一般指可以跨网络的内存访问方式。 |
RoCE |
RDMA over Converged Ethernet,承载在融合以太网上的RDMA技术,即跨越以太网的RDMA通信方式。 |
AI节点 |
昇腾AI节点,又称昇腾AI Server,通常是8卡或16卡的昇腾NPU设备组成的服务器形态的统称。 |
AI集群 |
多个AI节点通过交换机(Switch)互联后用于分布式训练或推理的系统。 |
通信域 |
通信域是集合通信执行的上下文,管理对应的通信实体(例如一个NPU就是一个通信实体)和通信所需的资源。 |
Rank |
通信域中的每个通信实体称为一个rank,每个rank都会分配一个介于0~n-1(n为NPU的数量)的唯一标识。 |