功耗压测
测试项功能
进行EDP/TDP功耗压力测试,并输出诊断结果。
诊断项名称 |
完成一轮诊断的默认耗时 |
是否影响NPU训练或推理 |
使用场景 |
---|---|---|---|
TDP压测 |
默认20min |
是 |
训练或推理业务上线。 |
EDP压测 |
默认5min |
是 |
训练或推理业务上线。 |
支持的场景
功耗压测支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
使用约束
- 功耗压测不支持在设备所在环境存在问题的场景下运行,例如高温、散热有问题的环境,否则会出现硬件设备掉卡(掉卡即使用npu-smi info命令查询设备基本信息时,NPU不在位)、硬件设备故障等异常情况。
- 功耗压测不能用于温度测试,即试图测试硬件设备在不同温度下的散热情况,否则会出现硬件设备掉卡(掉卡即使用npu-smi info命令查询设备基本信息时,NPU不在位)、硬件设备故障等异常情况。
- 为保证返回检测结果的正确性和准确性,功耗压测需要单独执行。
- 功耗跟MCU强相关,使用前请将MCU升级至配套版本,否则可能会有aicore利用率未满100%、调压异常等问题。
测试项参数查询
各参数解释如表3所示。
参数 |
说明 |
是否必填 |
---|---|---|
[-dg, --dg, --diagnosis] |
使用该参数进行整卡的故障诊断测试。 |
是 |
[-i, --items] |
指定具体的压测检查项:
|
是 |
[-s, --stress] |
使用该参数进行压力测试,当前支持指定的压力测试有以下几种:片上内存压测、Aicore压测、P2P压测、功耗压测。
|
是 |
[-st, --st, --stress-time] |
指定EDP、TDP压力测试的时间。
|
否 |
[-r, --result] |
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
|
否 |
[-fmt, --fmt, --format] |
指定输出格式,可以为normal或json。若未指定则默认为normal。 |
否 |
[-q, --quiet] |
|
否 |
[--skip-check] |
传入此参数时仅上报过温告警。
|
否 |
注:
|
使用实例
1 | ascend-dmi -dg -i edp -s -st 300 -q |
1 | ascend-dmi -dg -i tdp -s -st 1200 -q |
故障检查项说明
回显状态 |
含义 |
---|---|
PASS |
功耗压力测试结果无异常。 |
SKIP |
当前设备不支持功耗压测。 |
IMPORTANT_WARN |
压测过程中产生芯片告警,请根据描述建议处理。若仍无法解决,请联系华为工程师处理。 |
FAIL |
功耗压测功能执行失败,请联系华为工程师处理。 |
父主题: 故障诊断