设备上的每张NPU卡都需要创建对应的NPU状态监测指标文件。
在训练任务期间,使用npu-smi工具,每15秒间隔查询一次NPU状态信息,命令示例如下:
/usr/local/bin/npu-smi info -t common -i ${device_id}
依次记录所有卡的数据,记录“NPU ID”、“Aicore Usage Rate”、“Aicore Freq(MHZ)”、“Aicore curFreq(MHZ)”、“Temperature”、“NPU Real-time Power(W)”、“HBM Usage Rate”的取值,保存为csv格式文件,格式如表1所示。
命令回显如下:
NPU ID : 0 Chip Count : 1 Chip ID : 0 Memory Usage Rate(%) : 6 HBM Usage Rate(%) : 0 Aicore Usage Rate(%) : 0 Aicore Freq(MHZ) : 900 Aicore curFreq(MHZ) : 900 Aicore Count : 30 Temperature(C) : 41 NPU Real-time Power(W) : 71.7
将每次回显中的参数指标保存至csv格式文件。
time |
dev_id |
hbm_rate |
aicore_rate |
rated_freq |
freq |
temp |
power |
---|---|---|---|---|---|---|---|
1683862905 |
2 |
0 |
0 |
1000 |
1000 |
42 |
70.3 |
1683862925 |
2 |
0 |
0 |
1000 |
1000 |
42 |
70.5 |