P2P压测
测试项功能
测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。建议在因HCCS通信链路硬件故障导致的训练精度异常场景下使用该功能。
诊断项名称 |
参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|
p2p压力测试 |
1min~5min |
是 |
设备间拷贝数据发生异常。 |
测试项特定参数查询
使用实例
ascend-dmi -dg -i bandwidth --type p2p -s -q
- 默认模式:
1 2 3 4 5 6 7 8 9
[***@***]# ascend-dmi -dg -i bandwidth --type p2p -s -q Summary: Arch: aarch64 Mode: ****** Time: 20250529-19:55:23 Hardware: bandwidth: PASS
- 若使用不支持的设备进行P2P压测,回显示例如下:
1 2 3 4 5 6 7 8 9 10
[***@***]# ascend-dmi -dg -i bandwidth --type p2p -s -q Summary: Arch: aarch64 Mode: ****** Time: 20250529-19:51:57 Hardware: bandwidth: SKIP *** The current device does not support the p2p stress test.
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
压力测试通过,结果无异常。 |
SKIP |
当前设备不支持P2P压测。 |
EMERGENCY_WARN |
紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。 |
FAIL |
P2P压测执行失败,请联系华为工程师处理。 |
父主题: 压力测试场景