昇腾社区首页
中文
注册
开发者
下载

掉卡场景进行超节点带宽测试失败

问题现象

进行卡粒度超节点带宽测试时发生如下报错:

ascend-dmi -bw -t p2p --sp 1 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 5
ascend-dmi -bw -t p2p --sp 0 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 5

日志报错如下图所示。

使用npu-smi info查询环境状态,其中一台环境0卡掉卡,如下图所示。

可能原因

代码内部使用逻辑ID,即Device ID来进行卡粒度带宽测试,掉卡场景两端Device ID无法对应,找不到对端文件。

解决措施

使用npu-smi info -m查询芯片ID,指定Chip Logic ID一样的NPU ID来进行卡粒度超节点带宽测试。

示例命令如下:

ascend-dmi -bw -t p2p --sp 1 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 6
ascend-dmi -bw -t p2p --sp 0 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 5