测试项功能

功耗测试是通过运行单算子模型来检测整卡的功耗信息。

使用约束

功耗测试不支持在设备所在环境存在问题的场景下运行，例如高温、散热有问题的环境，否则会出现硬件设备掉卡（掉卡即使用npu-smi info命令查询设备基本信息时，NPU不在位）、硬件设备故障等异常情况。
功耗测试不能用于温度测试，即试图测试硬件设备在不同温度下的散热情况，否则会出现硬件设备掉卡（掉卡即使用npu-smi info命令查询设备基本信息时，NPU不在位）、硬件设备故障等异常情况。
为保证返回检测结果的正确性和准确性，功耗测试需要单独执行。
功耗跟MCU强相关，使用前请将MCU升级至配套版本，否则可能会有aicore利用率未满100%、调压异常等问题。

为了避免频繁输出日志影响测试结果，测试前确认Host和Device的日志级别设置为ERROR，确认及设置方法如下：
1. 确认日志级别：
  - Host侧：通过执行echo $GLOBAL_LOG_LEVEL命令查询，如果查询结果为非法值或者空，表示日志级别为缺省级别ERROR，对应数值3。
  - Device侧：请参考《msnpureport工具使用》，查看全局日志级别、模块日志级别和是否开启Event日志。
2. 如果日志级别不为ERROR，请参考《CANN 日志参考》中“设置日志级别”章节章节，设置Host和Device侧的日志级别。

支持的场景

功耗测试支持的设备及场景如表1 支持的场景和产品型号所示。（在下表中，Y表示支持，N表示不支持。）

表1 支持的场景和产品型号
场景/产品型号	Atlas 训练系列产品	Atlas A2 训练系列产品	Atlas 200/300/500 推理产品	Atlas 推理系列产品	Atlas 800I A2 推理产品	Atlas 200I/500 A2 推理产品
物理机	Y	Y	Y	5	Y	3
宿主机+容器	Y	Y	N	5	Y	N
虚拟机	1	4	N	2	N	N

仅Atlas 800 训练服务器（型号 9000）、Atlas 900 PoD（型号 9000）、Atlas 900T PoD Lite支持。
仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡支持。
仅Atlas 500 A2 智能小站支持。
仅Atlas 200T A2 Box16 异构子框支持。
仅Atlas 300I Pro 推理卡、Atlas 300I Duo 推理卡、Atlas 300V Pro 视频解析卡、Atlas 300V 视频解析卡、Atlas 200I SoC A1 核心板支持。

测试项参数查询

用户可任选以下指令之一查看功耗测试命令的可用参数。

ascend-dmi -p -h

ascend-dmi -p --help

各参数解释如表2所示。

表2 参数说明
参数	说明	是否必填
[-p, --power]	使用该参数进行整卡的功耗测试。	是
[-t, --type]	指定算子运算类型，可以为fp16或int8，若未指定则默认为fp16。其中Atlas A2 训练系列产品只支持指定为fp16。	否
[-pt, --pt, --pressure-type]	使用该参数指定压力测试的类型。当前支持指定以下2种类型： edp（Estimated Design Power）：EDP功耗压力测试。 tdp（Thermal Design Power）：TDP功耗压力测试。支持和--dur、--it、--pm、-q参数一起使用。不支持和-t参数一起使用。不指定该参数时默认进行整卡的功耗测试。该参数当前只支持在以下设备上使用：Atlas A2 训练系列产品、Atlas 800I A2推理产品。	否
[-dur, --dur, --duration]	指运行时间，若不填写运行时间则默认为600。单位为秒，取值范围为[60，604800]。	否
[-it, --it, --interval-times]	指屏幕信息打印刷新的间隔时间，若不填写间隔时间则默认为5。单位为秒，取值范围为[1, 5]。	否
[--skip-check]	传入此参数时会跳过设备健康状态检查。不传入此参数，默认会进行设备健康状态检查。	否
[-pm, --pm, --print-mode]	屏幕输出的打印模式，若不填写打印模式则默认为refresh。打印模式： refresh：每次打印清除历史打印信息。 history：打印保存历史信息。说明： refresh模式下，当芯片数量较多时，建议调小字体使得所有结果都在一个屏幕中，否则可能会显示异常，重复打印部分内容。	否
[-q, --quiet]	指定该参数，将不再进行防呆提示，用户将默认允许该操作。说明：若不指定该参数，将进行防呆提示，用户需要输入Y或N（y或n）确认是否进行测试。	否
[-h, --help]	查看Ascend DMI工具“功耗测试”功能的帮助信息。	否

功耗数据是按周期采集，且前后两次采集之间存在时间间隔，因此小概率会出现未采集到实际功耗数据进而导致显示值偏低的情况。
功耗测试有启动时间和退出时间，因此第一次和最后一次的回显信息会存在误差，属于正常现象。
从运行成本考虑，功耗测试打印次数不一定与理论值相同。以功耗工具运行时间为60s，信息打印刷新的间隔为5s为例，理论上打印次数应为12次，实际次数会低于这个数值。
ascend-dmi -p后使用--dur，--it等多个二级参数时，可任意指定这些参数的排列顺序，不影响命令结果输出。例如：ascend-dmi -p --dur 60 --it 5 --pm refresh和ascend-dmi -p --it 5 --dur 60 --pm refresh输出结果相同。
因int8模式下使用的是整数运算，相比于fp16的浮点数运算，会减少一部分运算单元，因此最终呈现出的功耗值将偏低。同时，硬件设备会预设性能阈值，fp16模式下容易达到阈值并触发主动降频、电压调节等保护机制，因此硬件设备功耗不会长时间超过阈值，int8模式下功耗偏低，未达到阈值情况下，不同硬件设备的功耗可能会出现明显差异。

使用实例

以下为各类服务器返回的功耗示例。

推理服务器
1. 以默认参数执行功耗测试为例（此时算子运算类型为fp16）。
  ascend-dmi -p
  
  图1 功耗测试示例一（推理服务器）
2. 以算子运算类型为int8，其余参数保持默认为例。
  ascend-dmi -p -t int8
  
  图2 功耗测试示例二（推理服务器）
训练服务器
 以执行时间为60s，信息的打印间隔信息为5s，屏幕的输出模式为清除历史记录为例。

ascend-dmi -p --dur 60 --it 5 --pm refresh

图3 功耗测试示例（训练服务器）
Atlas 300T 训练卡（型号 Pro-9000）
以执行时间为60s，信息的打印间隔信息为5s，屏幕的输出模式为清除历史记录为例。

ascend-dmi -p --dur 60 --it 5 --pm refresh

图4 功耗测试示例

以执行功耗测试，且指定压测类型为edp为例。

         
              ascend-dmi -p -pt edp -q

回显如下所示。

         
          
            
            
              |=======================+==================+=======================|
| Type                  | NPU Count                                |
+-----------------------+------------------+-----------------------+
| Device ID             | Health           | Temperature   Voltage |
| Chip Name             | AI Core Usage    | Power        Frequency|
|=======================+==================+=======================|
| Ascend ***            | 8                                        |
+-----------------------+------------------+-----------------------+
| 0                     | OK               | 49C           0.79V   |
| Ascend ***            | 100%             | 350.1W        1500MHZ |
+-----------------------+------------------+-----------------------+
| 1                     | OK               | 55C           0.79V   |
| Ascend ***            | 100%             | 350.4W        1550MHZ |
+-----------------------+------------------+-----------------------+
| 2                     | OK               | 50C           0.78V   |
| Ascend ***            | 100%             | 349.9W        1600MHZ |
+-----------------------+------------------+-----------------------+
| 3                     | OK               | 55C           0.78V   |
| Ascend ***            | 100%             | 350.0W        1550MHZ |
+-----------------------+------------------+-----------------------+
| 4                     | OK               | 49C           0.77V   |
| Ascend ***            | 100%             | 350.2W        1500MHZ |
+-----------------------+------------------+-----------------------+
| 5                     | OK               | 54C           0.77V   |
| Ascend ***            | 100%             | 350.1W        1500MHZ |
+-----------------------+------------------+-----------------------+
| 6                     | OK               | 49C           0.78V   |
| Ascend ***            | 100%             | 349.8W        1550MHZ |
+-----------------------+------------------+-----------------------+
| 7                     | OK               | 53C           0.75V   |
| Ascend ***            | 100%             | 350.2W        1600MHZ |
|=======================+==================+=======================|

             

           

         
        

上述图中各类服务器参数介绍如表3所示。

表3 显示界面参数说明
参数	说明	产品形态
Type	标卡型号	标卡
Card	卡ID号
Chip	处理器编号
Name	处理器名称
Type	处理器型号	训练服务器
Chip Name	处理器名称	训练服务器
NPU Count	NPU的个数	标卡、训练服务器
Power	当前整卡或芯片的实际功耗
Health	处理器健康程度
Temperature	处理器当前温度
Device ID	处理器设备逻辑号
AI Core Usage	处理器AI Core的使用率
Voltage	处理器当前电压
Frequency	处理器当前频率