昇腾社区首页
中文
注册

功耗测试

测试项功能

功耗测试是通过运行单算子模型来检测整卡的功耗信息。

测试项特定参数查询

用户可任选以下指令之一查看功耗测试命令的可用参数。

ascend-dmi -p -h

ascend-dmi -p --help

各参数解释如表1所示,表格内仅展示测试项特定参数,其余公共参数请参见公共参数说明

表1 参数说明

参数

说明

是否必填

[-p, --power]

使用该参数进行整卡的功耗测试。

[-t, --type]

指定算子运算类型,可以为fp16或int8,若未指定则默认为fp16。

其中Atlas A2 训练系列产品Atlas 800I A2 推理服务器(32GB HCCS款)A200I A2 Box 异构组件Atlas A3 训练系列产品、Atlas A3 推理系列产品只支持指定为fp16。

[-pt, --pt, --pressure-type]

使用该参数指定压力测试的类型。

  • 当前支持指定以下2种类型:
    • edp(Estimated Design Power):EDP功耗压力测试。
    • tdp(Thermal Design Power):TDP功耗压力测试。
  • 支持和--dur、--it、--pm、-q参数一起使用。
  • 不支持和-t参数一起使用。
  • 不指定该参数时默认进行整卡的功耗测试。
  • 该参数当前只支持在以下设备上使用:Atlas A2 训练系列产品Atlas 800I A2推理产品A200I A2 Box 异构组件Atlas A3 训练系列产品、Atlas A3 推理系列产品。

[-dur, --dur, --duration]

指运行时间,若不填写运行时间则默认为600。

单位为秒,取值范围为[60,604800]。

[-it, --it, --interval-times]

指屏幕信息打印刷新的间隔时间,若不填写间隔时间则默认为5。

单位为秒,取值范围为[1, 5]。

[--skip-check]

传入此参数时会跳过设备健康状态检查。

不传入此参数,默认会进行设备健康状态检查。

[-pm, --pm, --print-mode]

屏幕输出的打印模式,若不填写打印模式则默认为refresh。

打印模式:

  • refresh:每次打印清除历史打印信息。
  • history:打印保存历史信息。
    说明:

    refresh模式下,当芯片数量较多时,建议调小字体使得所有结果都在一个屏幕中,否则可能会显示异常,重复打印部分内容。

使用实例

以下为各类服务器返回的功耗示例。

  • 推理服务器
    1. 以默认参数执行功耗测试为例(此时算子运算类型为fp16)。

      ascend-dmi -p

      图1 功耗测试示例一(推理服务器)
    2. 以算子运算类型为int8,其余参数保持默认为例。

      ascend-dmi -p -t int8

      图2 功耗测试示例二(推理服务器)
  • 训练服务器

    以执行时间为60s,信息的打印间隔时间为5s,屏幕的输出模式为清除历史记录为例。

    ascend-dmi -p --dur 60 --it 5 --pm refresh

    图3 功耗测试示例(训练服务器)
  • Atlas 300T 训练卡(型号 Pro-9000)

    以执行时间为60s,信息的打印间隔时间为5s,屏幕的输出模式为清除历史记录为例。

    ascend-dmi -p --dur 60 --it 5 --pm refresh

    图4 功耗测试示例
  • 以执行功耗测试,且指定压测类型为edp为例。
    ascend-dmi -p -pt edp -q
    回显如下所示。
    |=======================+==================+=======================|
    | Type                  | NPU Count                                |
    +-----------------------+------------------+-----------------------+
    | Device ID             | Health           | Temperature   Voltage |
    | Chip Name             | AI Core Usage    | Power        Frequency|
    |=======================+==================+=======================|
    | Ascend ***            | 8                                        |
    +-----------------------+------------------+-----------------------+
    | 0                     | OK               | 49C           0.79V   |
    | Ascend ***            | 100%             | 350.1W        1500MHZ |
    +-----------------------+------------------+-----------------------+
    | 1                     | OK               | 55C           0.79V   |
    | Ascend ***            | 100%             | 350.4W        1550MHZ |
    +-----------------------+------------------+-----------------------+
    | 2                     | OK               | 50C           0.78V   |
    | Ascend ***            | 100%             | 349.9W        1600MHZ |
    +-----------------------+------------------+-----------------------+
    | 3                     | OK               | 55C           0.78V   |
    | Ascend ***            | 100%             | 350.0W        1550MHZ |
    +-----------------------+------------------+-----------------------+
    | 4                     | OK               | 49C           0.77V   |
    | Ascend ***            | 100%             | 350.2W        1500MHZ |
    +-----------------------+------------------+-----------------------+
    | 5                     | OK               | 54C           0.77V   |
    | Ascend ***            | 100%             | 350.1W        1500MHZ |
    +-----------------------+------------------+-----------------------+
    | 6                     | OK               | 49C           0.78V   |
    | Ascend ***            | 100%             | 349.8W        1550MHZ |
    +-----------------------+------------------+-----------------------+
    | 7                     | OK               | 53C           0.75V   |
    | Ascend ***            | 100%             | 350.2W        1600MHZ |
    |=======================+==================+=======================|

上述图中各类服务器参数介绍如表2所示。

表2 显示界面参数说明

参数

说明

产品形态

Type

标卡型号

标卡

Card

卡ID号

Chip

处理器编号

Name

处理器名称

Type

处理器型号

训练服务器

Chip Name

处理器名称

NPU Count

NPU的个数

标卡、训练服务器

Power

当前整卡或芯片的实际功耗

Health

处理器健康程度

Temperature

处理器当前温度

Device ID

处理器设备逻辑号

AI Core Usage

处理器AI Core的使用率

Voltage

处理器当前电压

Frequency

处理器当前频率