函数原型
def all_to_all_v_c(send_data, send_count_matrix, rank, fusion=0, fusion_id=-1, group="hccl_world_group")
功能说明
集合通信域alltoallvc操作接口。向通信域内所有rank发送数据(数据量可以定制),并从所有rank接收数据。
alltoallvc通过输入参数send_count_matrix传入所有rank的收发参数,与alltoallv相比,性能更优。
集合通信网络中,每一个集合通信域都会占用HCCL_BUFFSIZE(默认值为200M)大小的缓冲区,用户可以根据通信数据量与业务模型数据量的大小,适当调整HCCL_BUFFSIZE的大小,提升网络执行性能。
参数说明
参数名 |
输入/输出 |
描述 |
send_data |
输入 |
待发送的数据。 TensorFlow的tensor类型。 针对Atlas 训练系列产品,tensor支持的数据类型为 int8, uint8, uint16, int32, uint32, int64, uint64, float16, float32, float64 。 针对Atlas A2训练系列产品,tensor支持的数据类型为int8, uint8, int16, uint16, int32, uint32, int64, uint64, float16, float32, float64。 |
send_count_matrix |
输入 |
所有rank的收发参数,send_count_matrix[i][j]表示rank i发给rank j的数据量,基本单位是send_data_type的字节数。 例:send_data_type为int32,send_count_matrix[0][1]=1,表示rank0给rank1发送1个int32。 TensorFlow的tensor类型。tensor支持的数据类型为int64。 |
rank |
输入 |
int类型。 本节点的rank id,该id是group内的rank id。 |
fusion |
输入 |
int类型。 alltoallvc算子融合标识,支持以下取值:
默认值为“0”。 |
fusion_id |
输入 |
标识alltoallvc算子的融合id。 int类型。 开启alltoallvc算子融合功能的场景下,需要配置该参数,取值范围[0, 0x7fffffff]。 |
group |
输入 |
group名称,可以为用户自定义group或者"hccl_world_group"。 String类型,最大长度为128字节,含结束符。 |
返回值
recv_data:对输入tensor执行完all_to_all_v_c操作之后的结果tensor。
调用示例
from npu_bridge.npu_init import *
result = hccl_ops.all_to_all_v_c(send_data_tensor, send_count_matrix_tensor, rank_tensor)
约束说明
- 调用该接口的rank必须在当前接口入参group定义的范围内,输入的rank id有效且不重复,否则调用该接口会失败。
- alltoallvc的通信域需要满足:单server 1p、2p通信域要在同一个cluster内(server内0-3卡和4-7卡各为一个cluster),单server 4p、8p和多server通信域中rank要以cluster为基本单位,并且server间cluster选取要一致。
- 各节点输入的send_count_matrix要保持一致。