昇腾社区首页
中文
注册
开发者
下载

superDeviceId重复

问题现象

在CANN日志中存在关键字"superDeviceId[***] in superPod[***]is already exist",如下所示:

[ERROR] HCCL(169030,alltoall_test):2025-10-23-16:28:59.392.635 [topoinfo_exchange_agent.cc:695] [169030][Verify][SuperPodInfo]superDeviceId[0x3000000] in superPod[super_pod_id_0]is already exist.

问题根因

superDeviceId是Atlas A3 训练系列产品/Atlas A3 推理系列产品内device的唯一标识,HCCL在一致性校验时发现一个超节点内有相同的superDeviceId,因此校验失败。如果硬件配置异常,或通过HCCL_LOGIC_SUPERPOD_ID环境变量将不同的物理超节点配置在同一个逻辑超节点内,均会出现此类报错。

解决方法

修改硬件配置或正确配置HCCL_LOGIC_SUPERPOD_ID环境变量,避免同一个超节点内出现SDID相同的设备。