昇腾社区首页
中文
注册
开发者
下载

Atlas 训练系列产品

本节提供Atlas 训练系列产品的通信算子支持情况。

  • 单算子零拷贝:为了降低内存拷贝开销,使得HCCL可以直接对业务传入的内存进行操作,提升通信性能
  • 通信算子重执行:网络故障导致通信闪断时,HCCL会尝试重新执行此通信算子提升通信稳定性。
  • 确定性计算:归约类通信算子在相同的硬件和输入下,多次执行将产生相同的输出。
  • Atlas 训练系列产品,通信算法的编排展开位置仅支持HOST侧的CPU。
  • 本节表格中“√”代表支持,“☓”代表不支持,“NA”代表不涉及,Atlas 训练系列产品不支持单算子零拷贝与重执行。
  • 未列出的算子代表不支持。

算子

网络运行模式

单算子零拷贝

确定性计算

重执行

节点内通信

节点间通信

Broadcast

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

AllGather

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

Reduce

单算子模式

图模式Ascend IR

图捕获模式aclgraph

NA

AllReduce

单算子模式

图模式Ascend IR

图捕获模式aclgraph

NA

Scatter

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

ReduceScatter

单算子模式

图模式Ascend IR

图捕获模式aclgraph

NA

AlltoAll

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

AlltoAllV

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

Send

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

Recv

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA

BatchSendRecv

单算子模式

NA

图模式Ascend IR

NA

图捕获模式aclgraph

NA