掉卡场景进行超节点带宽测试失败
问题现象
进行卡粒度超节点带宽测试时发生如下报错:
ascend-dmi -bw -t p2p --sp 1 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 5 ascend-dmi -bw -t p2p --sp 0 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 5
日志报错如下图所示。

使用npu-smi info查询环境状态,其中一台环境0卡掉卡,如下图所示。

可能原因
代码内部使用逻辑ID,即Device ID来进行卡粒度带宽测试,掉卡场景两端Device ID无法对应,找不到对端文件。
解决措施
使用npu-smi info -m查询芯片ID,指定Chip Logic ID一样的NPU ID来进行卡粒度超节点带宽测试。


示例命令如下:
ascend-dmi -bw -t p2p --sp 1 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 6 ascend-dmi -bw -t p2p --sp 0 --ip xx.xx.xx.xx --spp /home/superpod/nfs/share --hip xx.xx.xx.xx --mode card -q -d 5
父主题: 超节点P2P带宽测试类