昇腾社区首页
中文
注册
开发者
下载

简介

HCCL Python语言的接口用于实现图模式下的框架适配,当前仅用于TensorFlow网络在NPU执行分布式优化。

相关概念

概念

介绍

group

指参与集合通信的进程组,包括:

  • hccl_world_group:默认的全局group,包含所有参与集合通信的rank,通过rank table文件创建。
  • 自定义group:hccl_world_group包含的进程组的子集,可以通过create_group接口将rank table中的rank定义成不同的group,并行执行集合通信算法。

rank

group中的每个通信实体称为一个rank,每个rank都会分配一个介于0~n-1(n为NPU的数量)的唯一标识。

rank size

  • rank size,指整个group的rank数量。
  • local rank size,指group内进程在其所在Server内的rank数量。

rank id

  • rank id,指进程在group中对应的rank标识序号。范围:0~(rank size-1)。对于用户自定义group,rank在本group内从0开始进行重排;对于hccl_world_group,rank id和world rank id相同。
  • world rank id,指进程在hccl_world_group中对应的rank标识序号,范围:0~(rank size-1)。
  • local rank id,指group内进程在其所在Server内的rank编号,范围:0~(local rank size-1)。