P2P压测
测试项功能
测试指定源头Device到目标Device的HCCS通信链路是否存在硬件故障,并输出测试结果。
诊断项名称 |
使用Atlas A2 训练系列产品完成一轮诊断的参考耗时 |
使用Atlas 900 A3 SuperPoD 超节点完成一轮诊断的参考耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|---|
p2p压力测试 |
30s~390s |
3min~5min |
是 |
设备间拷贝数据发生异常。 |
支持的场景
p2p压力测试支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
使用约束
- 推荐在因HCCS通信链路硬件故障导致的训练精度异常场景下使用该功能。
- P2P压力测试会影响NPU训练或推理作业,为保证返回检测结果的正确性和准确性,请单独执行。
- 为确保P2P压力测试效果准确性,建议在NPU空载、无业务的时候执行P2P压力测试,因为例如CCAE或npu-exporter组件会调用DCMI接口监测环境状态,占用一定的通信链路带宽资源,导致结果存在误差。
- 不建议在降P启动场景中使用此功能。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的诊断检查项:
|
是 |
[-s, --stress] |
使用该参数进行压力测试,当前支持指定的压力测试有以下几种:片上内存压测、Aicore压测、P2P压测、功耗压测、Aicpu压测。
|
是 |
[-t, --type] |
指测试数据流向的分类。
|
是 |
[-d, --device] |
指定需要进行诊断测试的Device ID,Device ID是指昇腾芯片的逻辑ID。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-q, --quiet] |
指定该参数,将不再进行防呆提示,用户将默认允许该操作。
|
否 |
注:
|
使用实例
ascend-dmi -dg -i bandwidth --type p2p -s
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
压力测试通过,结果无异常。 |
SKIP |
当前设备不支持P2P压测。 |
EMERGENCY_WARN |
紧急警告,压测结果为不通过,建议联系华为工程师更换硬件。 |
FAIL |
P2P压测执行失败,请联系华为工程师处理。 |
父主题: 故障诊断