昇腾社区首页
中文
注册

Prometheus Metrics接口

功能说明

提供Metrics接口,供Prometheus调用和集成。

URL

GET http://ip:port/metrics

NPU Exporter为了安全考虑,默认启用容器级别端口(默认8082),请求IP为Kubernetes容器IP,当K8s网络插件为calico时,网络策略设置为允许label为app=prometheus的应用访问。

请求参数

响应说明

按照Prometheus的专用格式返回数据,相关数据信息如下所示,仅供参考,以实际回显为准。数据信息的详细说明参见下文或Prometheus数据信息说明.xlsx。Prometheus自带数据信息无需关注,不在此展示说明。有部分数据信息仅支持某种产品形态,具体以实际上报的数据信息信息为准。

...

# HELP machine_npu_nums Amount of npu installed on the machine.
# TYPE machine_npu_nums gauge
machine_npu_nums 8
# HELP npu_chip_info_aicore_current_freq the npu ai core current frequency, unit is 'MHz'
# TYPE npu_chip_info_aicore_current_freq gauge
npu_chip_info_aicore_current_freq{container_name="",id="0",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:61:00.0",pod_name="",vdie_id="185011D4-21104518-A0C4ED94-14CC040A-56102003"} 1000 1723621883587
npu_chip_info_aicore_current_freq{container_name="",id="1",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:DB:00.0",pod_name="",vdie_id="185011D4-21E04718-93B2ED94-14CC040A-BF102003"} 1000 1723621883932
npu_chip_info_aicore_current_freq{container_name="",id="2",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:B2:00.0",pod_name="",vdie_id="185011D4-20C02418-59D4ED94-14CC040A-F9102003"} 1000 1723621884277
npu_chip_info_aicore_current_freq{container_name="",id="3",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:3E:00.0",pod_name="",vdie_id="185011D4-21502C18-0464ED94-14CC040A-6E102003"} 1000 1723621884682
npu_chip_info_aicore_current_freq{container_name="",id="4",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:60:00.0",pod_name="",vdie_id="185011D4-21A02418-64946D94-14CC040A-F8102003"} 1000 1723621885026
npu_chip_info_aicore_current_freq{container_name="",id="5",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:DA:00.0",pod_name="",vdie_id="185011DC-21F02B18-C4B66D94-14CC040A-57102003"} 1000 1723621885385
npu_chip_info_aicore_current_freq{container_name="",id="6",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:B1:00.0",pod_name="",vdie_id="185011D4-20602118-14646D94-14CC040A-8A102003"} 1000 1723621885784
npu_chip_info_aicore_current_freq{container_name="",id="7",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:3D:00.0",pod_name="",vdie_id="185011D4-21504C18-10656D94-14CC040A-6B102003"} 1000 1723621886131
# HELP npu_chip_info_bandwidth_rx the npu interface receive speed, unit is 'MB/s'
# TYPE npu_chip_info_bandwidth_rx gauge
npu_chip_info_bandwidth_rx{container_name="",id="0",model_name="910A-Ascend-V1",namespace="",pcie_bus_info="0000:61:00.0",pod_name="",vdie_id="185011D4-21104518-A0C4ED94-14CC040A-56102003"} 0 1723621883587
...
  • 如果进程运行在主机上,Pod没有使用NPU,则pod_name、container_name和namespace的值将为空。
  • 支持的Atlas A2 训练系列产品的数据信息。
  • Atlas A2 训练系列产品没有DDR模块,不上报相关数据信息。
  • Atlas 9000 A3 SuperPoD 集群算力系统没有DDR模块、光模块和PCIe链路,不上报相关数据信息。
  • NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考调用的HDK接口
  • 若查询某项数据信息时,NPU Exporter组件不支持该设备形态或调用HDK接口失败,则不会上报该数据信息。
表1 Prometheus labels

类别

数据信息名称

数据信息说明

数据信息标签字段

字段类型

单位

支持的产品形态

版本

npu_exporter_version_info

NPU Exporter版本信息

exporterVersion:当前NPU Exporter版本信息

string

1:占位字符,无实际含义

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

NPU

machine_npu_nums

昇腾AI处理器数目

-

-

单位:个

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

NPU

npu_chip_info_bandwidth_rx

昇腾AI处理器网口实时接收速率

container_name:容器名

string

单位:MB/s

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_bandwidth_tx

昇腾AI处理器网口实时发送速率

container_name:容器名

string

单位:MB/s

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_link_status

昇腾AI处理器网口Link状态

container_name:容器名

string

取值为0或1

  • 1:UP
  • 0:DOWN
  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_network_status

昇腾AI处理器网络健康状态

container_name:容器名

string

取值为0或1

  • 1:健康,可以连通
  • 0:不健康,无法连通
  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_error_code

昇腾AI处理器错误码

说明:
  • 若该昇腾AI处理器上同时存在多个错误码,由于Prometheus格式限制,当前只支持上报第一个出现的错误码。
  • 错误码的详细说明,可以通过芯片故障码参考文档获取对应的参考文档。

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_name

昇腾AI处理器名称和ID

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_health_status

昇腾AI处理器健康状态

container_name:容器名

string

取值为0或1

  • 1:健康
  • 0:不健康
  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_power

昇腾AI处理器功耗

container_name:容器名

string

单位:瓦特(W)

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器
    说明:

    只有Atlas 推理系列产品为板卡功耗,其余产品为昇腾AI处理器功耗。

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_temperature

昇腾AI处理器温度

container_name:容器名

string

单位:摄氏度(℃)

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_process_info

占用昇腾AI处理器的进程的信息,取值为进程使用的内存

container_name:容器名,输出格式为“Pod Namesapce_Pod名_容器名”。如果进程运行在宿主机上,该值为空。

string

单位:MB

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

container_id:容器ID

string

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

process_id:
  • NPU Exporter是特权容器下root用户启动的,查询到的PID是进程在宿主机上的PID
  • 宿主机场景下启动,查询到的PID是进程在宿主机上的PID
  • 其他容器场景,查询到的PID是进程在当前容器内的PID

string

NPU

npu_chip_info_voltage

昇腾AI处理器电压

container_name:容器名

string

单位:伏特(V)

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_rx_ecn_num

昇腾AI处理器网络接收ECN数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_rx_fcs_num

昇腾AI处理器网络接收FCS数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_container_info

NPU容器信息

containerID:容器ID

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

containerName:容器名,输出格式为“Pod Namespace_Pod名_容器名

string

container_name:容器名

string

npuID:NPU ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

container_npu_total_memory

带有容器信息的NPU内存总大小

container_name:容器名

string

单位:MB

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

container_npu_used_memory

带有容器信息的NPU已使用内存

container_name:容器名

string

单位:MB

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_link_speed

网口默认速率

container_name:容器名

string

单位:Mb/s

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_link_up_num

网口up的统计次数

container_name:容器名

string

单位:次

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_utilization

昇腾AI处理器AI Core利用率

container_name:容器名

string

单位:%

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_aicore_current_freq

昇腾AI处理器的AI Core当前频率

container_name:容器名

string

单位:MHz

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

container_npu_utilization

带有容器信息的NPU的AI Core利用率

container_name:容器名

string

单位:%

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

NPU

npu_chip_info_vector_utilization

昇腾AI处理器AI Vector利用率

container_name:容器名

string

单位:%

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

vNPU

vnpu_pod_aicore_utilization

vNPU的AI Core利用率

aicore_count:vNPU核数

float

单位:%

Atlas 200I SoC A1 核心板

container_name:容器名

string

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pod_name:Pod名

string

v_dev_id:vNPU唯一标识

string

is_virtual:是否是虚拟设备

bool

vNPU

vnpu_pod_total_memory

vNPU拥有的总内存

aicore_count:vNPU核数

float

单位:KB

Atlas 200I SoC A1 核心板

container_name:容器名

string

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pod_name:Pod名

string

v_dev_id:vNPU唯一标识

string

is_virtual:是否是虚拟设备

bool

vNPU

vnpu_pod_used_memory

vNPU使用中的内存

aicore_count:vNPU核数

float

单位:KB

Atlas 200I SoC A1 核心板

container_name:容器名

string

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pod_name:Pod名

string

v_dev_id:vNPU唯一标识

string

is_virtual:是否是虚拟设备

bool

DDR

npu_chip_info_used_memory

昇腾AI处理器DDR内存已使用量

container_name:容器名

string

单位:MB

  • Atlas 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

DDR

npu_chip_info_total_memory

昇腾AI处理器DDR内存总量

container_name:容器名

string

单位:MB

  • Atlas 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_used_memory

昇腾AI处理器片上内存已使用量

container_name:容器名

string

单位:MB

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_total_memory

昇腾AI处理器片上总内存

container_name:容器名

string

单位:MB

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_enable_flag

昇腾AI处理器片上内存的ECC使能状态

container_name:容器名

string

取值为1或0

  • 0:ECC检测未使能
  • 1:ECC检测使能
  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_single_bit_error_cnt

昇腾AI处理器片上内存单比特当前错误计数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_double_bit_error_cnt

昇腾AI处理器片上内存多比特当前错误计数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_total_single_bit_error_cnt

昇腾AI处理器片上内存生命周期内所有单比特错误数量

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_total_double_bit_error_cnt

昇腾AI处理器片上内存生命周期内所有多比特错误数量

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_single_bit_isolated_pages_cnt

昇腾AI处理器片上内存单比特错误隔离内存页数量

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

片上内存

npu_chip_info_hbm_ecc_double_bit_isolated_pages_cnt

昇腾AI处理器片上内存多比特错误隔离内存页数量

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • 推理服务器(插Atlas 300I 推理卡)
  • Atlas 推理系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

PCIe

npu_chip_info_pcie_rx_p_bw

昇腾AI处理器向远端写PCIe带宽

container_name:容器名

string

单位:MB/ms

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

pcie_bw_type:向远端写PCIe带宽的统计值
  • minPcieBw:最小值
  • maxPcieBw:最大值
  • avgPcieBw:平均值

string

PCIe

npu_chip_info_pcie_rx_np_bw

昇腾AI处理器从远端读PCIe带宽

container_name:容器名

string

单位:MB/ms

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

pcie_bw_type:从远端读PCIe带宽的统计值
  • minPcieBw:最小值
  • maxPcieBw:最大值
  • avgPcieBw:平均值

string

PCIe

npu_chip_info_pcie_rx_cpl_bw

昇腾AI处理器回复远端读操作CPL的PCIe带宽

container_name:容器名

string

单位:MB/ms

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

pcie_bw_type:回复远端读操作CPL的带宽的统计值
  • minPcieBw:最小值
  • maxPcieBw:最大值
  • avgPcieBw:平均值

string

PCIe

npu_chip_info_pcie_tx_p_bw

昇腾AI处理器接收远端写的PCIe带宽

container_name:容器名

string

单位:MB/ms

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

pcie_bw_type:接收远端写的PCIe带宽的统计值
  • minPcieBw:最小值
  • maxPcieBw:最大值
  • avgPcieBw:平均值

string

PCIe

npu_chip_info_pcie_tx_np_bw

昇腾AI处理器从远端读的PCIe带宽

container_name:容器名

string

单位:MB/ms

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

pcie_bw_type:接收远端读的PCIe带宽的统计值
  • minPcieBw:最小值
  • maxPcieBw:最大值
  • avgPcieBw:平均值

string

PCIe

npu_chip_info_pcie_tx_cpl_bw

昇腾AI处理器设备回复远端读操作CPL的PCIe带宽

container_name:容器名

string

单位:MB/ms

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

pcie_bw_type:从远端读收到CPL回复的带宽的统计值
  • minPcieBw:最小值
  • maxPcieBw:最大值
  • avgPcieBw:平均值

string

RoCE

npu_chip_mac_rx_pause_num

MAC接收的pause帧总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_tx_pause_num

MAC发送的pause帧总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_rx_pfc_pkt_num

MAC接收的PFC帧总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_tx_pfc_pkt_num

MAC发送的PFC帧总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_rx_bad_pkt_num

MAC接收的坏包总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_tx_bad_pkt_num

MAC发送的坏包总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_tx_bad_oct_num

MAC发送的坏包总报文字节数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_mac_rx_bad_oct_num

MAC接收的坏包总报文字节数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_rx_all_pkt_num

RoCE接收的总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_tx_all_pkt_num

RoCE发送的总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_rx_err_pkt_num

RoCE接收的坏包总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_tx_err_pkt_num

RoCE发送的坏包总报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_rx_cnp_pkt_num

RoCE接收的CNP类型报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_tx_cnp_pkt_num

RoCE发送的CNP类型报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_new_pkt_rty_num

RoCE发送的超次重传的数量统计

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_unexpected_ack_num

RoCE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_out_of_order_num

RoCE接收的PSN>预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_verification_err_num

RoCE接收的域段校验失败的报文数,域段检验的场景包括:icrc、报文长度、目的端口号等。

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

RoCE

npu_chip_roce_qp_status_err_num

RoCE接收的QP连接状态异常产生的报文数

container_name:容器名

string

-

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas A3 训练系列产品
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

光模块

npu_chip_optical_state

光模块在位状态

container_name:容器名

string

取值为0或1

  • 0:不在位
  • 1:在位
  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 900 A3 SuperPoD 集群算力系统
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

光模块

npu_chip_optical_tx_power_X (X范围为0~3)

光模块发送功率

container_name:容器名

string

单位:mW

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 900 A3 SuperPoD 集群算力系统
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

光模块

npu_chip_optical_rx_power_X (X范围为0~3)

光模块接收功率

container_name:容器名

string

单位:mW

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 900 A3 SuperPoD 集群算力系统
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

光模块

npu_chip_optical_vcc

光模块电压

container_name:容器名

string

单位:mV

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 900 A3 SuperPoD 集群算力系统
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

光模块

npu_chip_optical_temp

光模块温度

container_name:容器名

string

单位:摄氏度(℃)

  • Atlas 训练系列产品
  • Atlas A2 训练系列产品
  • Atlas 900 A3 SuperPoD 集群算力系统
  • Atlas 800I A2 推理服务器

id:NPU的ID

string

model_name:昇腾AI处理器名称

string

namespace:命名空间名

string

pcie_bus_info:昇腾AI处理器的PCIe信息

string

pod_name:Pod名

string

vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID

string

调用的HDK接口

NPU Exporter是通过调用底层的HDK接口,获取相应的信息。数据信息调用的HDK接口请参考NPU Exporter调用的HDK接口.xlsx。查找数据信息对应的HDK接口,可参考如下步骤。

  1. 登录昇腾计算文档中心,选择单击对应产品名称,进入文档界面。例如Atlas 800I A2 推理服务器产品的用户,单击“Atlas 800I A2”。
  2. 在左侧导航栏找到“二次开发”,根据接口的类型选择对应文档。
    • DCMI接口选择“API参考”,单击进入24.1.RC3.1版本的DCMI API参考文档。
    • HCCN TOOL接口选择“接口参考”,单击进入24.1.RC3.1版本的HCCN Tool 接口参考文档。
  3. 在文档首页搜索栏中,直接搜索对应的接口名称或者关键词,获取接口的相关信息。

状态码

表12 状态码

状态码

含义

200

正常状态。

307

临时跳转。

500

服务器内部错误。