NPU状态监测指标文件
文件说明
- 文件说明:通过npu-smi工具进行采集,监测NPU卡额定频率、当前功率、温度等指标。
- 命名约束:npu_smi_(\d+)_details.csv。如npu_smi_0_details.csv,其中0表示NPU卡的device id。
- 存放路径约束:
- 采集目录/environment_check/
- ${--env_check}/

设备上的每张NPU卡都需要创建对应的NPU状态监测指标文件。
采集方式说明
在训练任务期间,使用npu-smi工具,每15秒间隔查询一次NPU状态信息,命令示例如下:
npu-smi info -t common -i ${device_id}
依次记录所有卡的数据,记录“NPU ID”、“Aicore Usage Rate”、“Aicore Freq(MHZ)”、“Aicore curFreq(MHZ)”、“Temperature”、“NPU Real-time Power(W)”、“HBM Usage Rate”的取值,保存为csv格式文件,格式如表1所示。
命令回显如下:
NPU ID : 0 Chip Count : 1 Chip ID : 0 Memory Usage Rate(%) : 6 HBM Usage Rate(%) : 0 Aicore Usage Rate(%) : 0 Aicore Freq(MHZ) : 900 Aicore curFreq(MHZ) : 900 Aicore Count : 30 Temperature(C) : 41 NPU Real-time Power(W) : 71.7
将每次回显中的参数指标保存至csv格式文件。
time |
dev_id |
hbm_rate |
aicore_rate |
rated_freq |
freq |
temp |
power |
---|---|---|---|---|---|---|---|
1683862905 |
2 |
0 |
0 |
1000 |
1000 |
42 |
70.3 |
1683862925 |
2 |
0 |
0 |
1000 |
1000 |
42 |
70.5 |
- time:unix当前系统采集时间。
- dev_id:NPU卡号,对应回显中NPU ID。
- hbm_rate:片上内存使用率,对应回显中HBM Usage Rate(%)。
- aicore_rate:Aicore使用率,对应回显中Aicore Usage Rate(%)。
- rated_freq:NPU额定频率,对应回显中Aicore Freq(MHZ)。
- freq:NPU实时频率,对应回显中Aicore curFreq(MHZ)
- temp:NPU温度,对应回显中Temperature(C)。
- power:NPU功耗,对应回显中NPU Real-time Power(W)。
父主题: 训练中采集