运行Telegraf后,会显示监测的
昇腾AI处理器的数据信息,回显示例如下,仅供参考,以实际回显为准。数据信息的详细说明参见下文或
数据信息说明.xlsx。
...
Ascend910-0,host=xxx npu_chip_link_speed=104857600000i,npu_chip_roce_rx_cnp_pkt_num=0i,npu_chip_roce_unexpected_ack_num=0i,npu_chip_optical_vcc=3245.1,npu_chip_optical_rx_power_1=0.8585,npu_chip_info_hbm_used_memory=0i,npu_chip_mac_rx_pause_num=0i,npu_chip_roce_tx_all_pkt_num=0i,npu_chip_roce_tx_cnp_pkt_num=0i,npu_chip_info_temperature=46,npu_chip_mac_rx_bad_pkt_num=0i,npu_chip_roce_tx_err_pkt_num=0i,npu_chip_optical_rx_power_3=0.8466,npu_chip_optical_rx_power_0=0.7933,npu_chip_info_network_status=0i,npu_chip_mac_rx_pfc_pkt_num=0i,npu_chip_mac_tx_bad_pkt_num=0i,npu_chip_roce_rx_all_pkt_num=0i,npu_chip_mac_rx_bad_oct_num=0i,npu_chip_optical_tx_power_1=0.9162,npu_chip_info_utilization=0,npu_chip_info_power=73.9000015258789,npu_chip_info_link_status=1i,npu_chip_info_bandwidth_rx=0,npu_chip_mac_tx_pfc_pkt_num=0i,npu_chip_roce_rx_err_pkt_num=0i,npu_chip_roce_verification_err_num=0i,npu_chip_optical_state=1i,npu_chip_info_bandwidth_tx=0,npu_chip_mac_tx_bad_oct_num=0i,npu_chip_roce_out_of_order_num=0i,npu_chip_roce_qp_status_err_num=0i,npu_chip_optical_rx_power_2=0.855,npu_chip_optical_tx_power_0=0.9095,npu_chip_info_hbm_utilization=0,npu_chip_link_up_num=2i,npu_chip_info_health_status=1i,npu_chip_mac_tx_pause_num=0i,npu_chip_roce_new_pkt_rty_num=0i,npu_chip_optical_temp=53,npu_chip_optical_tx_power_2=1.0342,npu_chip_optical_tx_power_3=0.9715 1694772754612200641,npu_chip_info_process_info_num=0i
- NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考调用的HDK接口。
- 若查询某个数据信息时,NPU Exporter组件不支持该设备形态或调用HDK接口失败,则不会上报该数据信息。
本接口提供查询的Telegraf labels包含几个部分。
版本数据信息
表1 版本数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
版本
|
npu_exporter_version_info
|
NPU Exporter版本信息
|
-
|
Atlas 训练系列产品
Atlas A2 训练系列产品
Atlas A3 训练系列产品
推理服务器(插Atlas 300I 推理卡)
Atlas 推理系列产品
Atlas 800I A2 推理服务器
A200I A2 Box 异构组件
|
NPU数据信息
表2 NPU数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
NPU
|
machine_npu_nums
|
昇腾AI处理器数目
|
单位:个
|
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品
- 推理服务器(插Atlas 300I 推理卡)
- Atlas 推理系列产品
- Atlas 800I A2 推理服务器
- A200I A2 Box 异构组件
|
NPU
|
npu_chip_info_name
|
昇腾AI处理器名称和ID
|
-
|
NPU
|
npu_chip_info_health_status
|
昇腾AI处理器健康状态。
|
取值为0或
|
NPU
|
npu_chip_info_power
|
昇腾AI处理器功耗。
|
单位:瓦特(W)
|
NPU
|
npu_chip_info_vector_utilization
|
昇腾AI处理器AI Vector利用率。
|
单位:%
|
NPU
|
npu_chip_info_temperature
|
昇腾AI处理器温度。
|
单位:摄氏度(℃)
|
NPU
|
第一个错误码为:npu_chip_info_error_code
其他错误码:npu_chip_info_error_code_X
|
昇腾AI处理器错误码。
当昇腾AI处理器上没有错误码时,不会上报该字段。
说明: - Prometheus场景:若该昇腾AI处理器上同时存在多个错误码,由于Prometheus格式限制,当前只支持上报前十个出现的错误码。X的取值范围:1~9
- Telegraf场景:最多支持上报128个错误码。
- 错误码的详细说明,可以通过芯片故障码参考文档获取对应的参考文档。
|
-
|
NPU
|
npu_chip_info_process_info_num
|
占用昇腾AI处理器的进程数量。
|
-
|
NPU
|
npu_chip_info_utilization
|
昇腾AI处理器的AI Core利用率。
|
单位:%
|
NPU
|
npu_chip_info_aicore_current_freq
|
昇腾AI处理器的AI Core当前频率
|
单位:MHz
|
NPU
|
npu_chip_info_process_info
|
占用昇腾AI处理器的进程的信息,
仅当没有进程占用昇腾AI处理器时上报,值为0
|
单位:MB
|
NPU
|
npu_chip_info_process_info_PID
|
占用昇腾AI处理器的进程信息,其中PID为进程在宿主机上的PID;取值为进程使用的内存。
|
单位:MB
|
NPU
|
npu_chip_info_voltage
|
昇腾AI处理器电压
|
单位:伏特(V)
|
NPU
|
npu_chip_info_network_status
|
昇腾AI处理器的网络健康状态。
|
取值为0或1
|
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品
- Atlas 800I A2 推理服务器
- A200I A2 Box 异构组件
|
NPU
|
npu_chip_info_overall_utilization
|
昇腾AI处理器整体利用率
|
单位:%
|
- Atlas 推理系列产品
- Atlas 800I A2 推理服务器
|
vNPU数据信息
表3 vNPU数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
vNPU
|
vnpu_pod_aicore_utilization
|
vNPU的AI Core利用率
|
单位:%
|
Atlas 推理系列产品
|
vNPU
|
vnpu_pod_total_memory
|
vNPU拥有的总内存
|
单位:KB
|
vNPU
|
vnpu_pod_used_memory
|
vNPU使用中的内存
|
单位:KB
|
Network数据信息
表4 Network数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
Network
|
npu_chip_info_bandwidth_rx
|
昇腾AI处理器的网口实时接收速率。
|
单位:MB/s
|
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品
- Atlas 800I A2 推理服务器
- A200I A2 Box 异构组件
|
Network
|
npu_chip_info_bandwidth_tx
|
昇腾AI处理器的网口实时发送速率。
|
单位:MB/s
|
Network
|
npu_chip_info_link_status
|
昇腾AI处理器的网口Link状态。
|
取值为0或1
|
Network
|
npu_chip_link_speed
|
昇腾AI处理器网口默认速率。
|
单位:MB/s
|
Network
|
npu_chip_link_up_num
|
昇腾AI处理器网口UP的统计次数。
|
单位:次
|
片上内存数据信息
表5 片上内存数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
片上内存
|
npu_chip_info_hbm_used_memory
|
昇腾AI处理器的片上内存已使用量。
|
单位:MB
|
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品
- A200I A2 Box 异构组件
- Atlas 800I A2 推理服务器
|
片上内存
|
npu_chip_info_hbm_total_memory
|
昇腾AI处理器片上总内存。
|
单位:MB
|
片上内存
|
npu_chip_info_hbm_utilization
|
昇腾AI处理器的片上内存利用率。
|
单位:%
|
片上内存
|
npu_chip_info_hbm_ecc_enable_flag
|
昇腾AI处理器片上内存的ECC使能状态。
|
取值为1或0
|
片上内存
|
npu_chip_info_hbm_ecc_single_bit_error_cnt
|
昇腾AI处理器片上内存单比特当前错误计数。
|
-
|
片上内存
|
npu_chip_info_hbm_ecc_double_bit_error_cnt
|
昇腾AI处理器片上内存多比特当前错误计数。
|
-
|
片上内存
|
npu_chip_info_hbm_ecc_total_single_bit_error_cnt
|
昇腾AI处理器片上内存生命周期内所有单比特错误数量。
|
-
|
片上内存
|
npu_chip_info_hbm_ecc_total_double_bit_error_cnt
|
昇腾AI处理器片上内存生命周期内所有多比特错误数量。
|
-
|
片上内存
|
npu_chip_info_hbm_ecc_single_bit_isolated_pages_cnt
|
昇腾AI处理器片上内存单比特错误隔离内存页数量。
|
-
|
片上内存
|
npu_chip_info_hbm_ecc_double_bit_isolated_pages_cnt
|
昇腾AI处理器片上内存多比特错误隔离内存页数量。
|
-
|
HCCS数据信息
表6 HCCS数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
HCCS
|
npu_chip_info_hccs_statistic_info_tx_cnt_X
X范围:1~7(Atlas A2 训练系列产品或Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD)
|
- 第X个HDLC链路发送报文数,单位是flit。
- 采集失败时上报-1。
|
-
|
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品
|
HCCS
|
npu_chip_info_hccs_statistic_info_rx_cnt_X
X范围:1~7(Atlas A2 训练系列产品或Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD)
|
- 第X个HDLC链路接收报文数,单位是flit。
- 采集失败时上报-1。
|
-
|
HCCS
|
npu_chip_info_hccs_statistic_info_crc_err_cnt_X
X范围:1~7(Atlas A2 训练系列产品或Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD)
|
- 第X个HDLC链路接收报文crc错误,单位是flit。
- 采集失败时上报-1。
|
-
|
HCCS
|
npu_chip_info_hccs_bandwidth_info_profiling_time
|
HCCS链路带宽采样时长,取值范围1~1000。
|
单位:ms
|
HCCS
|
npu_chip_info_hccs_bandwidth_info_total_tx
|
HCCS链路总发送数据带宽,采集失败时上报-1。
|
单位:GB/S
|
HCCS
|
npu_chip_info_hccs_bandwidth_info_total_rx
|
HCCS链路总接收数据带宽,采集失败时上报-1。
|
单位:GB/S
|
HCCS
|
npu_chip_info_hccs_bandwidth_info_tx_X
X范围:1~7(Atlas A2 训练系列产品、Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD)。
|
HCCS单链路发送数据带宽,采集失败时上报-1。
|
单位:GB/S
|
HCCS
|
npu_chip_info_hccs_bandwidth_info_rx_X
X范围:1~7(Atlas A2 训练系列产品、Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD)
|
HCCS单链路接收数据带宽,采集失败时上报-1。
|
单位:GB/S
|
PCIe数据信息
表7 PCIe数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
PCIe
|
npu_chip_info_pcie_rx_p_bw
|
昇腾AI处理器向远端写PCIe带宽
|
单位:MB/ms
|
Atlas A2 训练系列产品
Atlas 800I A2 推理服务器
A200I A2 Box 异构组件
|
PCIe
|
npu_chip_info_pcie_rx_np_bw
|
昇腾AI处理器从远端读PCIe带宽
|
单位:MB/ms
|
PCIe
|
npu_chip_info_pcie_rx_cpl_bw
|
昇腾AI处理器回复远端读操作CPL的PCIe带宽
|
单位:MB/ms
|
PCIe
|
npu_chip_info_pcie_tx_p_bw
|
昇腾AI处理器接收远端写的PCIe带宽
|
单位:MB/ms
|
PCIe
|
npu_chip_info_pcie_tx_np_bw
|
昇腾AI处理器从远端读的PCIe带宽
|
单位:MB/ms
|
PCIe
|
npu_chip_info_pcie_tx_cpl_bw
|
昇腾AI处理器设备回复远端读操作CPL的PCIe带宽
|
单位:MB/ms
|
RoCE数据信息
表8 RoCE数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
RoCE
|
npu_chip_mac_rx_pause_num
|
MAC接收的pause帧总报文数。
|
-
|
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas A3 训练系列产品
- Atlas 800I A2 推理服务器
- A200I A2 Box 异构组件
|
RoCE
|
npu_chip_mac_tx_pause_num
|
MAC发送的pause帧总报文数。
|
-
|
RoCE
|
npu_chip_mac_rx_pfc_pkt_num
|
MAC接收的PFC帧总报文数。
|
-
|
RoCE
|
npu_chip_mac_tx_pfc_pkt_num
|
MAC发送的PFC帧总报文数。
|
-
|
RoCE
|
npu_chip_mac_rx_bad_pkt_num
|
MAC接收的坏包总报文数。
|
-
|
RoCE
|
npu_chip_mac_tx_bad_oct_num
|
MAC发送的坏包总报文字节数。
|
-
|
RoCE
|
npu_chip_mac_rx_bad_oct_num
|
MAC接收的坏包总报文字节数。
|
-
|
RoCE
|
npu_chip_mac_tx_bad_pkt_num
|
MAC发送的坏包总报文数。
|
-
|
RoCE
|
npu_chip_roce_rx_all_pkt_num
|
RoCE接收的总报文数。
|
-
|
RoCE
|
npu_chip_roce_tx_all_pkt_num
|
RoCE发送的总报文数。
|
-
|
RoCE
|
npu_chip_roce_rx_err_pkt_num
|
RoCE接收的坏包总报文数。
|
-
|
RoCE
|
npu_chip_roce_tx_err_pkt_num
|
RoCE发送的坏包总报文数。
|
-
|
RoCE
|
npu_chip_roce_rx_cnp_pkt_num
|
RoCE接收的CNP类型报文数。
|
-
|
RoCE
|
npu_chip_roce_tx_cnp_pkt_num
|
RoCE发送的CNP类型报文数。
|
-
|
RoCE
|
npu_chip_roce_new_pkt_rty_num
|
RoCE发送的重传的数量统计。
|
-
|
RoCE
|
npu_chip_roce_unexpected_ack_num
|
RoCE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务。
|
-
|
RoCE
|
npu_chip_roce_out_of_order_num
|
RoCE接收的PSN > 预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传。
|
-
|
RoCE
|
npu_chip_roce_verification_err_num
|
RoCE接收的域段校验失败的报文数,域段校验的场景包括:icrc、报文长度、目的端口号等。
|
-
|
RoCE
|
npu_chip_roce_qp_status_err_num
|
RoCE接收的QP连接状态异常产生的报文数。
|
-
|
RoCE
|
npu_chip_info_rx_ecn_num
|
昇腾AI处理器网络接收ECN数。
|
-
|
RoCE
|
npu_chip_info_rx_fcs_num
|
昇腾AI处理器网络接收FCS数。
|
-
|
SIO数据信息
表9 SIO数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
SIO
|
npu_chip_info_sio_crc_tx_err_cnt
|
Sio发送的错包数
|
-
|
Atlas A3 训练系列产品
|
SIO
|
npu_chip_info_sio_crc_rx_err_cnt
|
Sio接收的错包数
|
-
|
Atlas A3 训练系列产品
|
光模块数据信息
表10 光模块数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
光模块
|
npu_chip_optical_state
|
光模块在位状态。
|
取值为0或1
|
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- Atlas 900 A3 SuperPoD 超节点
- Atlas 800I A2 推理服务器
- A200I A2 Box 异构组件
|
光模块
|
npu_chip_optical_tx_power_X(X范围:0~3)
|
光模块发送功率。
|
单位:mW
|
光模块
|
npu_chip_optical_rx_power_X(X范围:0~3)
|
光模块接收功率。
|
单位:mW
|
光模块
|
npu_chip_optical_vcc
|
光模块电压。
|
单位:mV
|
光模块
|
npu_chip_optical_temp
|
光模块温度。
|
单位:摄氏度(℃)
|
DDR数据信息
表11 DDR数据信息类别
|
数据信息名称
|
数据信息说明
|
单位
|
支持的产品形态
|
DDR
|
npu_chip_info_used_memory
|
昇腾AI处理器DDR内存已使用量
|
单位:MB
|
Atlas 训练系列产品
推理服务器(插Atlas 300I 推理卡)
Atlas 推理系列产品
|
DDR
|
npu_chip_info_total_memory
|
昇腾AI处理器DDR内存总量
|
单位:MB
|
调用的HDK接口
NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考NPU Exporter调用的HDK接口.xlsx。查找数据信息对应的HDK接口,可参考如下步骤。
- 登录昇腾计算文档中心,选择单击对应产品名称,进入文档界面。例如Atlas 800I A2 推理服务器产品的用户,单击“Atlas 800I A2”。
- 在左侧导航栏找到“二次开发”,根据接口的类型选择对应文档。
- DCMI接口选择“API参考”,单击进入文档页面。
- HCCN Tool接口选择“接口参考”,单击进入文档页面。
- 在文档首页搜索栏中,直接搜索对应的接口名称或者关键词,获取接口的相关信息。