昇腾社区首页
中文
注册

P2P压测

测试项功能

测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。建议在因HCCS通信链路硬件故障导致的训练精度异常场景下使用该功能。

表1 诊断项说明

诊断项名称

参考耗时

是否影响NPU训练或推理

使用场景

p2p压力测试

1min~5min

设备间拷贝数据发生异常。

测试项特定参数查询

各参数解释如表2所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表2 参数说明

参数

说明

是否必填

[-i, --items]

指定具体的诊断检查项:
  • bandwidth:本地带宽,包含Host to Device、Device to Host、Device to Device、Peer to Peer四个方向。

[-t, --type]

指测试数据流向的分类。

  • 当items参数指定为bandwidth时,且传入-s参数时,此参数才会生效,表示执行P2P压测。
  • 当前仅支持带宽类型为p2p的指定。
    • p2p:测试指定源头Device到目标Device的传输速率和总耗时。

使用实例

ascend-dmi -dg -i bandwidth --type p2p -s -q

  • 默认模式:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    [***@***]# ascend-dmi -dg -i bandwidth --type p2p -s -q
    Summary:
        Arch: aarch64
        Mode: ******
        Time: 20250529-19:55:23
     
    Hardware:
        bandwidth:
            PASS
    
  • 若使用不支持的设备进行P2P压测,回显示例如下:
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    [***@***]# ascend-dmi -dg -i bandwidth --type p2p -s -q
    Summary:
        Arch: aarch64
        Mode: ******
        Time: 20250529-19:51:57
     
    Hardware:
        bandwidth:
            SKIP
            *** The current device does not support the p2p stress test.
    

故障检查项说明

表3 故障检查项说明

回显状态

含义

PASS

压力测试通过,结果无异常。

SKIP

当前设备不支持P2P压测。

EMERGENCY_WARN

紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。

FAIL

P2P压测执行失败,请联系华为工程师处理。