NPU状态监测指标文件

文件说明

设备上的每张NPU卡都需要创建对应的NPU状态监测指标文件。

采集方式说明

在训练任务期间,使用npu-smi工具,每15秒间隔查询一次NPU状态信息,命令示例如下:

/usr/local/bin/npu-smi info -t common -i ${device_id}

依次记录所有卡的数据,记录“NPU ID”、“Aicore Usage Rate”、“Aicore Freq(MHZ)”、“Aicore curFreq(MHZ)”、“Temperature”、“NPU Real-time Power(W)”、“HBM Usage Rate”的取值,保存为csv格式文件,格式如表1所示。

命令回显如下:

        NPU ID                         : 0
        Chip Count                     : 1
        Chip ID                        : 0
        Memory Usage Rate(%)           : 6
        HBM Usage Rate(%)              : 0
        Aicore Usage Rate(%)           : 0
        Aicore Freq(MHZ)               : 900
        Aicore curFreq(MHZ)            : 900
        Aicore Count                   : 30
        Temperature(C)                 : 41
        NPU Real-time Power(W)         : 71.7

将每次回显中的参数指标保存至csv格式文件。

表1 保存格式

time

dev_id

hbm_rate

aicore_rate

rated_freq

freq

temp

power

1683862905

2

0

0

1000

1000

42

70.3

1683862925

2

0

0

1000

1000

42

70.5