测试项功能
进行EDP/TDP功耗压力测试,并输出诊断结果。
表1 诊断项说明诊断项名称
|
完成一轮诊断的默认耗时
|
是否影响NPU训练或推理
|
使用场景
|
TDP压测
|
默认20min
|
是
|
训练或推理业务上线。
|
EDP压测
|
默认5min
|
是
|
训练或推理业务上线。
|
支持的场景
功耗压测支持的设备及场景如表2所示。(在下表中,Y表示支持,N表示不支持。)
表2 支持的场景和产品型号场景/产品型号
|
Atlas A2 训练系列产品
|
Atlas 800I A2 推理产品
|
物理机
|
Y
|
Y
|
宿主机+容器
|
Y
|
Y
|
虚拟机
|
1
|
N
|
- 仅Atlas 200T A2 Box16 异构子框支持。
使用约束
- 功耗压测不支持在设备所在环境存在问题的场景下运行,例如高温、散热有问题的环境,否则会出现硬件设备掉卡(掉卡即使用npu-smi info命令查询设备基本信息时,NPU不在位)、硬件设备故障等异常情况。
- 功耗压测不能用于温度测试,即试图测试硬件设备在不同温度下的散热情况,否则会出现硬件设备掉卡(掉卡即使用npu-smi info命令查询设备基本信息时,NPU不在位)、硬件设备故障等异常情况。
- 为保证返回检测结果的正确性和准确性,功耗压测需要单独执行。
- 功耗跟MCU强相关,使用前请将MCU升级至配套版本,否则可能会有aicore利用率未满100%、调压异常等问题。
- 为了避免频繁输出日志影响测试结果,测试前确认Host和Device的日志级别设置为ERROR,确认及设置方法如下:
- 确认日志级别:
- Host侧:通过执行echo $GLOBAL_LOG_LEVEL命令查询,如果查询结果为非法值或者空,表示日志级别为缺省级别ERROR,对应数值3。
- Device侧:请参考《msnpureport工具使用》,查看全局日志级别、模块日志级别和是否开启Event日志。
- 如果日志级别不为ERROR,请参考《CANN 日志参考》中“设置日志级别”章节,设置Host和Device侧的日志级别。
测试项参数查询
各参数解释如表3所示。
表3 参数说明参数
|
说明
|
是否必填
|
[-dg, --dg, --diagnosis]
|
使用该参数进行整卡的故障诊断测试。
|
是
|
[-i, --items]
|
指定具体的压测检查项: - edp(Estimated Design Power):EDP功耗压力测试。
- tdp(Thermal Design Power):TDP功耗压力测试。
- 不传入此参数,则默认执行除aicore、prbs、edp、tdp外其他检查项的诊断。
|
是
|
[-s, --stress]
|
使用该参数进行压力测试,当前支持指定的压力测试有以下几种:片上内存压测、Aicore压测、P2P压测、功耗压测。
- 在包含功耗压测的场景下,支持与-st参数一起使用,执行压测的时间以--st指定的时间为准。
|
是
|
[-st, --st, --stress-time]
|
指定EDP、TDP压力测试的时间。
- 取值范围是[60,604800],单位为秒。
- 需要在包含EDP、TDP压测检查项的场景下,与[-s, --stress]配合使用。
|
否
|
[-r, --result]
|
指定故障诊断结果和信息采集结果的保存路径,如:/test。指定的路径需符合安全要求,且不支持包含通配符“*”。
- 若用户指定结果保存路径,则在指定路径创建ascend_check文件夹,root用户指定的路径,将创建在根目录下,非root用户则创建在其$HOME下;若不指定路径,则保存在默认路径下,root用户:“/var/log/ascend_check”,非root用户:“$HOME/var/log/ascend_check”。
- 基于安全考虑,为防止结果保存目录权限被修改,用户可将结果保存目录ascend_check的权限设置为700。
- 当[-fmt, --fmt, --format]后检查项指定json格式输出时,会进行故障诊断结果保存,结果保存在“ascend_check/environment_check_before.txt”文件中,不指定json格式输出时,不保存故障诊断结果。
|
否
|
[-fmt, --fmt, --format]
|
指定输出格式,可以为normal或json。若未指定则默认为normal。
|
否
|
[-q, --quiet]
|
- 指定该参数,将不再进行防呆提示,用户将默认允许该操作。该参数必须与-i参数的bandwidth、aiflops、hbm、aicore、tdp、edp一起使用。
- 若不指定该参数,用户需要输入Y或N(y或n)确认是否进行测试。
|
否
|
[--skip-check]
|
传入此参数时仅上报过温告警。
- 仅支持items为edp或者tdp时,此参数才可使用。
|
否
|
注:
- 本文档输出的Device ID都是芯片逻辑ID。
- 用户可以执行npu-smi info -m命令,在显示界面表格中的Chip Logic ID参数处获得芯片逻辑ID,NPU ID则为对应的芯片物理ID。
- ascend-dmi --dg后使用-i,-s等多个二级参数时,可任意指定这些参数的排列顺序,不影响命令结果输出。
|
使用实例
| ascend-dmi -dg -i edp -s -st 300 -q
|
| ascend-dmi -dg -i tdp -s -st 1200 -q
|
故障检查项说明
表4 故障检查项说明回显状态
|
含义
|
PASS
|
功耗压力测试结果无异常。
|
SKIP
|
当前设备不支持功耗压测。
|
IMPORTANT_WARN
|
压测过程中产生芯片告警,请根据描述建议处理。若仍无法解决,请联系华为工程师处理。
|
FAIL
|
功耗压测功能执行失败,请联系华为工程师处理。
|