Prometheus Metrics接口
功能说明
提供Metrics接口,供Prometheus调用和集成。
URL
GET http://ip:port/metrics

NPU Exporter为了安全考虑,默认启用容器级别端口(默认8082),请求IP为Kubernetes容器IP,当K8s网络插件为calico时,网络策略设置为允许label为app=prometheus的应用访问。
请求参数
无
响应说明
按照Prometheus的专用格式返回数据,相关数据信息如下所示,仅供参考,以实际回显为准。数据信息的详细说明参见下文或Prometheus数据信息说明.xlsx。Prometheus自带数据信息无需关注,不在此展示说明。有部分数据信息仅支持某种产品形态,具体以实际上报的数据信息信息为准。
... # HELP machine_npu_nums Amount of npu installed on the machine. # TYPE machine_npu_nums gauge machine_npu_nums 8 # HELP npu_chip_info_aicore_current_freq the npu ai core current frequency, unit is 'MHz' # TYPE npu_chip_info_aicore_current_freq gauge npu_chip_info_aicore_current_freq{container_name="",id="0",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:61:00.0",pod_name="",vdie_id="185011D4-21104518-A0C4ED94-14CC040A-56102003"} 1000 1723621883587 npu_chip_info_aicore_current_freq{container_name="",id="1",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:DB:00.0",pod_name="",vdie_id="185011D4-21E04718-93B2ED94-14CC040A-BF102003"} 1000 1723621883932 npu_chip_info_aicore_current_freq{container_name="",id="2",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:B2:00.0",pod_name="",vdie_id="185011D4-20C02418-59D4ED94-14CC040A-F9102003"} 1000 1723621884277 npu_chip_info_aicore_current_freq{container_name="",id="3",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:3E:00.0",pod_name="",vdie_id="185011D4-21502C18-0464ED94-14CC040A-6E102003"} 1000 1723621884682 npu_chip_info_aicore_current_freq{container_name="",id="4",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:60:00.0",pod_name="",vdie_id="185011D4-21A02418-64946D94-14CC040A-F8102003"} 1000 1723621885026 npu_chip_info_aicore_current_freq{container_name="",id="5",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:DA:00.0",pod_name="",vdie_id="185011DC-21F02B18-C4B66D94-14CC040A-57102003"} 1000 1723621885385 npu_chip_info_aicore_current_freq{container_name="",id="6",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:B1:00.0",pod_name="",vdie_id="185011D4-20602118-14646D94-14CC040A-8A102003"} 1000 1723621885784 npu_chip_info_aicore_current_freq{container_name="",id="7",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:3D:00.0",pod_name="",vdie_id="185011D4-21504C18-10656D94-14CC040A-6B102003"} 1000 1723621886131 # HELP npu_chip_info_bandwidth_rx the npu interface receive speed, unit is 'MB/s' # TYPE npu_chip_info_bandwidth_rx gauge npu_chip_info_bandwidth_rx{container_name="",id="0",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:61:00.0",pod_name="",vdie_id="185011D4-21104518-A0C4ED94-14CC040A-56102003"} 0 1723621883587 ...

- 如果进程运行在主机上,Pod没有使用NPU,则pod_name、container_name和namespace的值将为空。
- 支持的Atlas A2 训练系列产品的数据信息。
- Atlas A2 训练系列产品没有DDR模块,不上报相关数据信息。
- Atlas 9000 A3 SuperPoD 集群算力系统没有DDR模块、光模块和PCIe链路,不上报相关数据信息。
- NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考调用的HDK接口。
- 若查询某项数据信息时,NPU Exporter组件不支持该设备形态或调用HDK接口失败,则不会上报该数据信息。
类别 |
数据信息名称 |
数据信息说明 |
数据信息标签字段 |
字段类型 |
单位 |
支持的产品形态 |
---|---|---|---|---|---|---|
版本 |
npu_exporter_version_info |
NPU Exporter版本信息 |
exporterVersion:当前NPU Exporter版本信息 |
string |
1:占位字符,无实际含义 |
|
NPU |
machine_npu_nums |
昇腾AI处理器数目 |
- |
- |
单位:个 |
|
NPU |
npu_chip_info_bandwidth_rx |
昇腾AI处理器网口实时接收速率 |
container_name:容器名 |
string |
单位:MB/s |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_bandwidth_tx |
昇腾AI处理器网口实时发送速率 |
container_name:容器名 |
string |
单位:MB/s |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_link_status |
昇腾AI处理器网口Link状态 |
container_name:容器名 |
string |
取值为0或1
|
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_network_status |
昇腾AI处理器网络健康状态 |
container_name:容器名 |
string |
取值为0或1
|
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_error_code |
昇腾AI处理器错误码 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_name |
昇腾AI处理器名称和ID |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_health_status |
昇腾AI处理器健康状态 |
container_name:容器名 |
string |
取值为0或1
|
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_power |
昇腾AI处理器功耗 |
container_name:容器名 |
string |
单位:瓦特(W) |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_temperature |
昇腾AI处理器温度 |
container_name:容器名 |
string |
单位:摄氏度(℃) |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_process_info |
占用昇腾AI处理器的进程的信息,取值为进程使用的内存 |
container_name:容器名,输出格式为“Pod Namesapce_Pod名_容器名”。如果进程运行在宿主机上,该值为空。 |
string |
单位:MB |
|
container_id:容器ID |
string |
|||||
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
process_id:
|
string |
|||||
NPU |
npu_chip_info_voltage |
昇腾AI处理器电压 |
container_name:容器名 |
string |
单位:伏特(V) |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_rx_ecn_num |
昇腾AI处理器网络接收ECN数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_rx_fcs_num |
昇腾AI处理器网络接收FCS数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_container_info |
NPU容器信息 |
containerID:容器ID |
string |
- |
|
containerName:容器名,输出格式为“Pod Namespace_Pod名_容器名” |
string |
|||||
container_name:容器名 |
string |
|||||
npuID:NPU ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
container_npu_total_memory |
带有容器信息的NPU内存总大小 |
container_name:容器名 |
string |
单位:MB |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
container_npu_used_memory |
带有容器信息的NPU已使用内存 |
container_name:容器名 |
string |
单位:MB |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_link_speed |
网口默认速率 |
container_name:容器名 |
string |
单位:Mb/s |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_link_up_num |
网口up的统计次数 |
container_name:容器名 |
string |
单位:次 |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_utilization |
昇腾AI处理器AI Core利用率 |
container_name:容器名 |
string |
单位:% |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_aicore_current_freq |
昇腾AI处理器的AI Core当前频率 |
container_name:容器名 |
string |
单位:MHz |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
container_npu_utilization |
带有容器信息的NPU的AI Core利用率 |
container_name:容器名 |
string |
单位:% |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
NPU |
npu_chip_info_vector_utilization |
昇腾AI处理器AI Vector利用率 |
container_name:容器名 |
string |
单位:% |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
vNPU |
vnpu_pod_aicore_utilization |
vNPU的AI Core利用率 |
aicore_count:vNPU核数 |
float |
单位:% |
Atlas 200I SoC A1 核心板 |
container_name:容器名 |
string |
|||||
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pod_name:Pod名 |
string |
|||||
v_dev_id:vNPU唯一标识 |
string |
|||||
is_virtual:是否是虚拟设备 |
bool |
|||||
vNPU |
vnpu_pod_total_memory |
vNPU拥有的总内存 |
aicore_count:vNPU核数 |
float |
单位:KB |
Atlas 200I SoC A1 核心板 |
container_name:容器名 |
string |
|||||
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pod_name:Pod名 |
string |
|||||
v_dev_id:vNPU唯一标识 |
string |
|||||
is_virtual:是否是虚拟设备 |
bool |
|||||
vNPU |
vnpu_pod_used_memory |
vNPU使用中的内存 |
aicore_count:vNPU核数 |
float |
单位:KB |
Atlas 200I SoC A1 核心板 |
container_name:容器名 |
string |
|||||
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pod_name:Pod名 |
string |
|||||
v_dev_id:vNPU唯一标识 |
string |
|||||
is_virtual:是否是虚拟设备 |
bool |
|||||
DDR |
npu_chip_info_used_memory |
昇腾AI处理器DDR内存已使用量 |
container_name:容器名 |
string |
单位:MB |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
DDR |
npu_chip_info_total_memory |
昇腾AI处理器DDR内存总量 |
container_name:容器名 |
string |
单位:MB |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_used_memory |
昇腾AI处理器片上内存已使用量 |
container_name:容器名 |
string |
单位:MB |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_total_memory |
昇腾AI处理器片上总内存 |
container_name:容器名 |
string |
单位:MB |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_enable_flag |
昇腾AI处理器片上内存的ECC使能状态 |
container_name:容器名 |
string |
取值为1或0
|
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_single_bit_error_cnt |
昇腾AI处理器片上内存单比特当前错误计数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_double_bit_error_cnt |
昇腾AI处理器片上内存多比特当前错误计数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_total_single_bit_error_cnt |
昇腾AI处理器片上内存生命周期内所有单比特错误数量 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_total_double_bit_error_cnt |
昇腾AI处理器片上内存生命周期内所有多比特错误数量 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_single_bit_isolated_pages_cnt |
昇腾AI处理器片上内存单比特错误隔离内存页数量 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
片上内存 |
npu_chip_info_hbm_ecc_double_bit_isolated_pages_cnt |
昇腾AI处理器片上内存多比特错误隔离内存页数量 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
PCIe |
npu_chip_info_pcie_rx_p_bw |
昇腾AI处理器向远端写PCIe带宽 |
container_name:容器名 |
string |
单位:MB/ms |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
pcie_bw_type:向远端写PCIe带宽的统计值
|
string |
|||||
PCIe |
npu_chip_info_pcie_rx_np_bw |
昇腾AI处理器从远端读PCIe带宽 |
container_name:容器名 |
string |
单位:MB/ms |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
pcie_bw_type:从远端读PCIe带宽的统计值
|
string |
|||||
PCIe |
npu_chip_info_pcie_rx_cpl_bw |
昇腾AI处理器回复远端读操作CPL的PCIe带宽 |
container_name:容器名 |
string |
单位:MB/ms |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
pcie_bw_type:回复远端读操作CPL的带宽的统计值
|
string |
|||||
PCIe |
npu_chip_info_pcie_tx_p_bw |
昇腾AI处理器接收远端写的PCIe带宽 |
container_name:容器名 |
string |
单位:MB/ms |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
pcie_bw_type:接收远端写的PCIe带宽的统计值
|
string |
|||||
PCIe |
npu_chip_info_pcie_tx_np_bw |
昇腾AI处理器从远端读的PCIe带宽 |
container_name:容器名 |
string |
单位:MB/ms |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
pcie_bw_type:接收远端读的PCIe带宽的统计值
|
string |
|||||
PCIe |
npu_chip_info_pcie_tx_cpl_bw |
昇腾AI处理器设备回复远端读操作CPL的PCIe带宽 |
container_name:容器名 |
string |
单位:MB/ms |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
pcie_bw_type:从远端读收到CPL回复的带宽的统计值
|
string |
|||||
RoCE |
npu_chip_mac_rx_pause_num |
MAC接收的pause帧总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_tx_pause_num |
MAC发送的pause帧总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_rx_pfc_pkt_num |
MAC接收的PFC帧总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_tx_pfc_pkt_num |
MAC发送的PFC帧总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_rx_bad_pkt_num |
MAC接收的坏包总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_tx_bad_pkt_num |
MAC发送的坏包总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_tx_bad_oct_num |
MAC发送的坏包总报文字节数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_mac_rx_bad_oct_num |
MAC接收的坏包总报文字节数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_rx_all_pkt_num |
RoCE接收的总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_tx_all_pkt_num |
RoCE发送的总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_rx_err_pkt_num |
RoCE接收的坏包总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_tx_err_pkt_num |
RoCE发送的坏包总报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_rx_cnp_pkt_num |
RoCE接收的CNP类型报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_tx_cnp_pkt_num |
RoCE发送的CNP类型报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_new_pkt_rty_num |
RoCE发送的超次重传的数量统计 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_unexpected_ack_num |
RoCE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_out_of_order_num |
RoCE接收的PSN>预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_verification_err_num |
RoCE接收的域段校验失败的报文数,域段检验的场景包括:icrc、报文长度、目的端口号等。 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
RoCE |
npu_chip_roce_qp_status_err_num |
RoCE接收的QP连接状态异常产生的报文数 |
container_name:容器名 |
string |
- |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
光模块 |
npu_chip_optical_state |
光模块在位状态 |
container_name:容器名 |
string |
取值为0或1
|
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
光模块 |
npu_chip_optical_tx_power_X (X范围为0~3) |
光模块发送功率 |
container_name:容器名 |
string |
单位:mW |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
光模块 |
npu_chip_optical_rx_power_X (X范围为0~3) |
光模块接收功率 |
container_name:容器名 |
string |
单位:mW |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
光模块 |
npu_chip_optical_vcc |
光模块电压 |
container_name:容器名 |
string |
单位:mV |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||||
光模块 |
npu_chip_optical_temp |
光模块温度 |
container_name:容器名 |
string |
单位:摄氏度(℃) |
|
id:NPU的ID |
string |
|||||
model_name:昇腾AI处理器名称 |
string |
|||||
namespace:命名空间名 |
string |
|||||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||||
pod_name:Pod名 |
string |
|||||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
调用的HDK接口
NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考NPU Exporter调用的HDK接口.xlsx。查找数据信息对应的HDK接口,可参考如下步骤。
状态码
状态码 |
含义 |
---|---|
200 |
正常状态。 |
307 |
临时跳转。 |
500 |
服务器内部错误。 |