torch.distributed.distributed_c10d._world.default_pg._get_backend(torch.device("npu")).get_hccl_comm_name
功能说明
从初始化完成的集合通信域中获取集合通信域名字。
函数原型
[object Object]
注:接口为PyTorch的ProcessGroup类,backend为NPU backend的方法。ProcessGroup可以是default_pg,也可以是torch.distributed.distributed_c10d.new_group创建的非default_pg。
须知:[object Object] 调用该接口时,需要保证当前current device被设置为正确。
参数说明
rankid:集合通信对应device的rankid。传入的rankid为全局的rankid,多机间device具有唯一的rankid。
init_comm:可选入参,默认值为True。值为True时,表示调用get_hccl_comm_name时,若hccl还未完成初始化时,则完成初始化,并返回group name。值为False时,表示调用get_hccl_comm_name时,若hccl还未完成初始化,申请内存资源等操作时,则不进行初始化,并返回空字符串。
说明: [object Object] hccl初始化会申请内存资源,造成内存升高,默认申请内存大小为Send buffer与Recv buffer各200M,共400M。buffer大小受环境变量HCCL_BUFFSIZE控制。
输出说明
string类型的集合通信域的名字。
约束说明
- 使用该接口前确保init_process_group已被调用,且初始化的backend为hccl。
- PyTorch2.1及以后版本与PyTorch2.1之前的版本对该接口调用方式不同,见undefined。
支持的型号
- [object Object] Atlas 训练系列产品[object Object]
- [object Object] Atlas A2 训练系列产品[object Object]
- [object Object] Atlas A3 训练系列产品[object Object]
- [object Object] Atlas 推理系列产品[object Object]
调用示例[object Object][object Object]
[object Object]