Prometheus Metrics接口
功能说明
提供Metrics接口,供Prometheus调用和集成。
URL
GET http://ip:port/metrics

NPU Exporter为了安全考虑,默认启用容器级别端口(默认8082),请求IP为Kubernetes容器IP,当K8s网络插件为calico时,网络策略设置为允许label为app=prometheus的应用访问。
请求参数
无
响应说明
按照Prometheus的专用格式返回数据,相关数据信息如下所示,仅供参考,以实际回显为准。数据信息的详细说明参见下文或Prometheus数据信息说明.xlsx。Prometheus自带数据信息无需关注,不在此展示说明。有部分数据信息仅支持某种产品形态,具体以实际上报的数据信息信息为准。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
... # HELP machine_npu_nums Amount of npu installed on the machine. # TYPE machine_npu_nums gauge machine_npu_nums 8 # HELP npu_chip_info_aicore_current_freq the npu ai core current frequency, unit is 'MHz' # TYPE npu_chip_info_aicore_current_freq gauge npu_chip_info_aicore_current_freq{container_name="",id="0",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:61:00.0",pod_name="",vdie_id="185011D4-21104518-A0C4ED94-14CC040A-56102003"} 1000 1723621883587 npu_chip_info_aicore_current_freq{container_name="",id="1",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:DB:00.0",pod_name="",vdie_id="185011D4-21E04718-93B2ED94-14CC040A-BF102003"} 1000 1723621883932 npu_chip_info_aicore_current_freq{container_name="",id="2",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:B2:00.0",pod_name="",vdie_id="185011D4-20C02418-59D4ED94-14CC040A-F9102003"} 1000 1723621884277 npu_chip_info_aicore_current_freq{container_name="",id="3",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:3E:00.0",pod_name="",vdie_id="185011D4-21502C18-0464ED94-14CC040A-6E102003"} 1000 1723621884682 npu_chip_info_aicore_current_freq{container_name="",id="4",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:60:00.0",pod_name="",vdie_id="185011D4-21A02418-64946D94-14CC040A-F8102003"} 1000 1723621885026 npu_chip_info_aicore_current_freq{container_name="",id="5",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:DA:00.0",pod_name="",vdie_id="185011DC-21F02B18-C4B66D94-14CC040A-57102003"} 1000 1723621885385 npu_chip_info_aicore_current_freq{container_name="",id="6",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:B1:00.0",pod_name="",vdie_id="185011D4-20602118-14646D94-14CC040A-8A102003"} 1000 1723621885784 npu_chip_info_aicore_current_freq{container_name="",id="7",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:3D:00.0",pod_name="",vdie_id="185011D4-21504C18-10656D94-14CC040A-6B102003"} 1000 1723621886131 # HELP npu_chip_info_bandwidth_rx the npu interface receive speed, unit is 'MB/s' # TYPE npu_chip_info_bandwidth_rx gauge npu_chip_info_bandwidth_rx{container_name="",id="0",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:61:00.0",pod_name="",vdie_id="185011D4-21104518-A0C4ED94-14CC040A-56102003"} 0 1723621883587 ... |
本接口提供查询的Prometheus labels包含几个部分。

- 如果进程运行在主机上,Pod没有使用NPU,则pod_name、container_name和namespace的值将为空。
- Atlas A2 训练系列产品没有DDR模块,不上报相关数据信息。
- NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考调用的HDK接口。
- 若查询某项数据信息时,NPU Exporter组件不支持该设备形态或调用HDK接口失败,则不会上报该数据信息。
版本数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
字段类型 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|---|
版本 |
npu_exporter_version_info |
NPU Exporter版本信息 |
exporterVersion:当前NPU Exporter版本信息 |
string |
1:占位字符,无实际含义 |
Atlas 训练系列产品 Atlas A2 训练系列产品 推理服务器(插Atlas 300I 推理卡) Atlas 推理系列产品 Atlas 800I A2 推理服务器 |
NPU数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|
NPU |
npu_chip_info_overall_utilization |
昇腾AI处理器整体利用率 |
单位:% |
Atlas A2 训练系列产品 Atlas 推理系列产品 Atlas 800I A2 推理服务器 |
|
NPU |
machine_npu_nums |
昇腾AI处理器数目 |
- |
单位:个 |
|
NPU |
npu_chip_info_bandwidth_rx |
昇腾AI处理器网口实时接收速率 |
单位:MB/s |
|
|
NPU |
npu_chip_info_bandwidth_tx |
昇腾AI处理器网口实时发送速率 |
单位:MB/s |
|
|
NPU |
npu_chip_info_link_status |
昇腾AI处理器网口Link状态 |
取值为0或1
|
|
|
NPU |
npu_chip_info_network_status |
昇腾AI处理器网络健康状态 |
取值为0或1
|
|
|
NPU |
npu_chip_info_error_code (第一个错误码) npu_chip_info_error_code_X X的取值范围:1~9 |
昇腾AI处理器错误码 |
- |
|
|
NPU |
npu_chip_info_name |
昇腾AI处理器名称和ID |
- |
|
|
NPU |
npu_chip_info_health_status |
昇腾AI处理器健康状态 |
取值为0或1
|
|
|
NPU |
npu_chip_info_power |
昇腾AI处理器功耗 |
单位:瓦特(W) |
|
|
NPU |
npu_chip_info_temperature |
昇腾AI处理器温度 |
单位:摄氏度(℃) |
|
|
NPU |
npu_chip_info_process_info |
占用昇腾AI处理器的进程的信息,取值为进程使用的内存 |
单位:MB |
|
|
NPU |
npu_chip_info_voltage |
昇腾AI处理器电压 |
单位:伏特(V) |
|
|
NPU |
npu_chip_info_rx_ecn_num |
昇腾AI处理器网络接收ECN数 |
- |
|
|
NPU |
npu_chip_info_rx_fcs_num |
昇腾AI处理器网络接收FCS数 |
- |
|
|
NPU |
npu_container_info |
NPU容器信息 |
- |
|
|
NPU |
container_npu_total_memory |
带有容器信息的NPU内存总大小 |
单位:MB |
|
|
NPU |
container_npu_used_memory |
带有容器信息的NPU已使用内存 |
单位:MB |
|
|
NPU |
npu_chip_link_speed |
网口默认速率 |
单位:MB/s |
|
|
NPU |
npu_chip_link_up_num |
网口up的统计次数 |
单位:次 |
|
|
NPU |
npu_chip_info_utilization |
昇腾AI处理器AI Core利用率 |
单位:% |
|
|
NPU |
npu_chip_info_aicore_current_freq |
昇腾AI处理器的AI Core当前频率 |
单位:MHz |
|
|
NPU |
container_npu_utilization |
带有容器信息的NPU的AI Core利用率 |
单位:% |
|
|
NPU |
npu_chip_info_vector_utilization |
昇腾AI处理器AI Vector利用率 |
单位:% |
Atlas 训练系列产品 Atlas A2 训练系列产品 推理服务器(插Atlas 300I 推理卡) Atlas 推理系列产品 Atlas 800I A2 推理服务器 |
关于以上表格中所用到的数据信息标签说明如下。
名称 |
字段及说明 |
字段类型 |
---|---|---|
标签1 |
container_name:容器名 |
string |
id:NPU的ID |
string |
|
model_name:昇腾AI处理器名称 |
string |
|
namespace:命名空间名 |
string |
|
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|
pod_name:Pod名 |
string |
|
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|
标签2 |
container_name:容器名,输出格式为“Pod Namesapce_Pod名_容器名”。如果进程运行在宿主机上,该值为空。 |
string |
container_id:容器ID |
string |
|
id:NPU的ID |
string |
|
model_name:昇腾AI处理器名称 |
string |
|
namespace:命名空间名 |
string |
|
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|
pod_name:Pod名 |
string |
|
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|
process_id:
|
string |
|
标签3 |
aicore_count:vNPU核数 |
float |
container_name:容器名 |
string |
|
id:NPU的ID |
string |
|
model_name:昇腾AI处理器名称 |
string |
|
namespace:命名空间名 |
string |
|
pod_name:Pod名 |
string |
|
v_dev_id:vNPU唯一标识 |
string |
|
is_virtual:是否是虚拟设备 |
bool |
|
标签4 |
container_name:容器名 |
string |
id:NPU的ID |
string |
|
model_name:昇腾AI处理器名称 |
string |
|
namespace:命名空间名 |
string |
|
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|
pod_name:Pod名 |
string |
|
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|
pcie_bw_type:向远端写PCIe带宽的统计值
|
string |
|
标签5 |
container_name:容器名 |
string |
containerName:容器名,输出格式为“Pod Namespace_Pod名_容器名” |
string |
|
containerID:容器ID |
string |
|
npuID:NPU ID |
string |
|
model_name:昇腾AI处理器名称 |
string |
|
namespace:命名空间名 |
string |
|
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|
pod_name:Pod名 |
string |
|
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
片上内存数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|
片上内存 |
npu_chip_info_hbm_used_memory |
昇腾AI处理器片上内存已使用量 |
单位:MB |
||
片上内存 |
npu_chip_info_hbm_total_memory |
昇腾AI处理器片上总内存 |
单位:MB |
||
片上内存 |
npu_chip_info_hbm_ecc_enable_flag |
昇腾AI处理器片上内存的ECC使能状态 |
取值为1或0 |
||
片上内存 |
npu_chip_info_hbm_ecc_single_bit_error_cnt |
昇腾AI处理器片上内存单比特当前错误计数 |
- |
||
片上内存 |
npu_chip_info_hbm_ecc_double_bit_error_cnt |
昇腾AI处理器片上内存多比特当前错误计数 |
- |
||
片上内存 |
npu_chip_info_hbm_ecc_total_single_bit_error_cnt |
昇腾AI处理器片上内存生命周期内所有单比特错误数量。 |
- |
||
片上内存 |
npu_chip_info_hbm_ecc_total_double_bit_error_cnt |
昇腾AI处理器片上内存生命周期内所有多比特错误数量 |
- |
||
片上内存 |
npu_chip_info_hbm_ecc_single_bit_isolated_pages_cnt |
昇腾AI处理器片上内存单比特错误隔离内存页数量 |
- |
||
片上内存 |
npu_chip_info_hbm_ecc_double_bit_isolated_pages_cnt |
昇腾AI处理器片上内存多比特错误隔离内存页数量 |
- |
HCCS数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|
HCCS |
npu_chip_info_hccs_statistic_info_tx_cnt_X X范围:1~7(Atlas A2 训练系列产品) |
- |
|||
HCCS |
npu_chip_info_hccs_statistic_info_rx_cnt_ X X范围:1~7(Atlas A2 训练系列产品) |
- |
|||
HCCS |
npu_chip_info_hccs_statistic_info_crc_err_cnt_ X X范围:1~7(Atlas A2 训练系列产品 |
- |
|||
HCCS |
npu_chip_info_hccs_bandwidth_info_profiling_time |
HCCS链路带宽采样时长,取值范围1~1000 |
单位:ms |
||
HCCS |
npu_chip_info_hccs_bandwidth_info_total_tx |
HCCS链路总发送数据带宽,采集失败时上报-1 |
单位:GB/S |
||
HCCS |
npu_chip_info_hccs_bandwidth_info_total_rx |
HCCS链路总接收数据带宽,采集失败时上报-1 |
单位:GB/S |
||
HCCS |
npu_chip_info_hccs_bandwidth_info_tx_X X范围:1~7(Atlas A2 训练系列产品或Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD) |
HCCS单链路发送数据带宽,采集失败时上报-1 |
单位:GB/S |
||
HCCS |
npu_chip_info_hccs_bandwidth_info_rx_X X范围:1~7(Atlas A2 训练系列产品或Atlas 900 A3 SuperPoD),2~7(Atlas 9000 A3 SuperPoD) |
HCCS单链路接收数据带宽,采集失败时上报-1 |
单位:GB/S |
PCIe数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|
PCIe |
npu_chip_info_pcie_rx_p_bw |
昇腾AI处理器向远端写PCIe带宽 |
单位:MB/ms |
||
PCIe |
npu_chip_info_pcie_rx_np_bw |
昇腾AI处理器从远端读PCIe带宽 |
单位:MB/ms |
||
PCIe |
npu_chip_info_pcie_rx_cpl_bw |
昇腾AI处理器回复远端读操作CPL的PCIe带宽 |
单位:MB/ms |
||
PCIe |
npu_chip_info_pcie_tx_p_bw |
昇腾AI处理器接收远端写的PCIe带宽 |
单位:MB/ms |
||
PCIe |
npu_chip_info_pcie_tx_np_bw |
昇腾AI处理器从远端读的PCIe带宽 |
单位:MB/ms |
||
PCIe |
npu_chip_info_pcie_tx_cpl_bw |
昇腾AI处理器设备回复远端读操作CPL的PCIe带宽 |
单位:MB/ms |
RoCE数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|
RoCE |
npu_chip_mac_rx_pause_num |
MAC接收的pause帧总报文数 |
- |
||
RoCE |
npu_chip_mac_tx_pause_num |
MAC发送的pause帧总报文数 |
- |
||
RoCE |
npu_chip_mac_rx_pfc_pkt_num |
MAC接收的PFC帧总报文数 |
- |
||
RoCE |
npu_chip_mac_tx_pfc_pkt_num |
MAC发送的PFC帧总报文数 |
- |
||
RoCE |
npu_chip_mac_rx_bad_pkt_num |
MAC接收的坏包总报文数 |
- |
||
RoCE |
npu_chip_mac_tx_bad_pkt_num |
MAC发送的坏包总报文数 |
- |
||
RoCE |
npu_chip_mac_tx_bad_oct_num |
MAC发送的坏包总报文字节数 |
- |
||
RoCE |
npu_chip_mac_rx_bad_oct_num |
MAC接收的坏包总报文字节数 |
- |
||
RoCE |
npu_chip_roce_rx_all_pkt_num |
RoCE接收的总报文数 |
- |
||
RoCE |
npu_chip_roce_tx_all_pkt_num |
RoCE发送的总报文数 |
- |
||
RoCE |
npu_chip_roce_rx_err_pkt_num |
RoCE接收的坏包总报文数 |
- |
||
RoCE |
npu_chip_roce_tx_err_pkt_num |
RoCE发送的坏包总报文数 |
- |
||
RoCE |
npu_chip_roce_rx_cnp_pkt_num |
RoCE接收的CNP类型报文数 |
- |
||
RoCE |
npu_chip_roce_tx_cnp_pkt_num |
RoCE发送的CNP类型报文数 |
- |
||
RoCE |
npu_chip_roce_new_pkt_rty_num |
RoCE发送的超次重传的数量统计 |
- |
||
RoCE |
npu_chip_roce_unexpected_ack_num |
RoCE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务 |
- |
||
RoCE |
npu_chip_roce_out_of_order_num |
RoCE接收的PSN>预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传 |
- |
||
RoCE |
npu_chip_roce_verification_err_num |
RoCE接收的域段校验失败的报文数,域段检验的场景包括:icrc、报文长度、目的端口号等。 |
- |
||
RoCE |
npu_chip_roce_qp_status_err_num |
RoCE接收的QP连接状态异常产生的报文数 |
- |
光模块数据信息
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|
光模块 |
npu_chip_optical_state |
光模块在位状态 |
取值为0或1 |
||
光模块 |
npu_chip_optical_tx_power_X (X范围为0~3) |
光模块发送功率 |
单位:mW |
||
光模块 |
npu_chip_optical_rx_power_X (X范围为0~3) |
光模块接收功率 |
单位:mW |
||
光模块 |
npu_chip_optical_vcc |
光模块电压 |
单位:mV |
||
光模块 |
npu_chip_optical_temp |
光模块温度 |
单位:摄氏度(℃) |
调用的HDK接口
NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考MindCluster 6.0.0 NPU Exporter调用的HDK接口.xlsx。查找数据信息对应的HDK接口,可参考如下步骤。
状态码
状态码 |
含义 |
---|---|
200 |
正常状态。 |
307 |
临时跳转。 |
500 |
服务器内部错误。 |