昇腾社区首页
中文
注册

NPU状态监测指标文件

文件说明

  • 文件说明:通过npu-smi工具进行采集,监测NPU卡额定频率、当前功率、温度等指标。
  • 命名约束:npu_smi_(\d+)_details.csv。如npu_smi_0_details.csv,其中0表示NPU卡的device id。
  • 存放路径约束:
    • 采集目录/environment_check/
    • ${--env_check}/

设备上的每张NPU卡都需要创建对应的NPU状态监测指标文件。

采集方式说明

在训练任务期间,使用npu-smi工具,每15秒间隔查询一次NPU状态信息,命令示例如下:

npu-smi info -t common -i ${device_id}

依次记录所有卡的数据,记录“NPU ID”、“Aicore Usage Rate”、“Aicore Freq(MHZ)”、“Aicore curFreq(MHZ)”、“Temperature”、“NPU Real-time Power(W)”、“HBM Usage Rate”的取值,保存为csv格式文件,格式如表1所示。

命令回显如下:

        NPU ID                         : 0
        Chip Count                     : 1
        Chip ID                        : 0
        Memory Usage Rate(%)           : 6
        HBM Usage Rate(%)              : 0
        Aicore Usage Rate(%)           : 0
        Aicore Freq(MHZ)               : 900
        Aicore curFreq(MHZ)            : 900
        Aicore Count                   : 30
        Temperature(C)                 : 41
        NPU Real-time Power(W)         : 71.7

将每次回显中的参数指标保存至csv格式文件。

表1 保存格式

time

dev_id

hbm_rate

aicore_rate

rated_freq

freq

temp

power

1683862905

2

0

0

1000

1000

42

70.3

1683862925

2

0

0

1000

1000

42

70.5

  • time:unix当前系统采集时间。
  • dev_id:NPU卡号,对应回显中NPU ID。
  • hbm_rate:片上内存使用率,对应回显中HBM Usage Rate(%)。
  • aicore_rate:Aicore使用率,对应回显中Aicore Usage Rate(%)。
  • rated_freq:NPU额定频率,对应回显中Aicore Freq(MHZ)。
  • freq:NPU实时频率,对应回显中Aicore curFreq(MHZ)
  • temp:NPU温度,对应回显中Temperature(C)。
  • power:NPU功耗,对应回显中NPU Real-time Power(W)。