开发者
资源

简介

技术背景与价值

随着大语言模型逐步向万卡级集群部署演进,传统的集合通信库面临以下挑战:

  • 内置通信算法难以在多样化场景中持续保持较优性能。
  • 通算融合趋势下,用户对灵活通信算子编程语义的需求日益凸显。

传统集合通信库封闭的黑盒设计限制了研究者探索新型通信原语,因此,HCCL开放了底层通信能力,提供轻量级通信算子开发接口,实现通信算子全栈可编程性,利于研究者开展通信方案创新。

HCCL通信算子开发接口具备以下关键特性:

  • 支持昇腾设备上的多种通信引擎,充分发挥硬件能力。
  • 支持多种通信协议,包括:PCIe、HCCS、RoCE、UB。
  • 通信平台能力与通信算子开发解耦,支持通信算子独立开发。

支持的产品型号

通信算子自定义开发功能当前支持以下产品

Atlas 350 加速卡

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品针对Atlas A2 训练系列产品/Atlas A2 推理系列产品,仅支持Atlas 800I A2 推理服务器、Atlas 300I A2 推理卡、A200I A2 Box 异构组件。