Prometheus Metrics接口
功能说明
提供Metrics接口,供Prometheus调用和集成。
URL
GET http://ip:port/metrics
MindCluster NPU Exporter为了安全考虑,默认启用容器级别端口(默认8082),请求IP为Kubernetes容器IP,当K8s网络插件为calico时,网络策略设置为允许label为app=prometheus的应用访问。
请求参数
无
响应说明
按照Prometheus的专用格式返回数据,相关指标如下所示,仅供参考,以实际回显为准。Prometheus自带指标无需关注,不在此展示说明。有部分指标仅支持某种产品形态,具体以实际上报的指标信息为准。
...
# HELP machine_npu_nums Amount of npu installed on the machine.
# TYPE machine_npu_nums gauge
machine_npu_nums 8
# HELP npu_chip_info_error_code the npu error code
# TYPE npu_chip_info_error_code gauge
npu_chip_info_error_code{id="0"} 0 1613993498553
npu_chip_info_error_code{id="1"} 0 1613993498588
npu_chip_info_error_code{id="2"} 0 1613993498615
npu_chip_info_error_code{id="3"} 0 1613993498645
npu_chip_info_error_code{id="4"} 0 1613993498676
npu_chip_info_error_code{id="5"} 0 1613993498685
npu_chip_info_error_code{id="6"} 0 1613993498715
npu_chip_info_error_code{id="7"} 0 1613993498742
# HELP npu_chip_info_hbm_total_memory the npu hbm total memory
# TYPE npu_chip_info_hbm_total_memory gauge
npu_chip_info_hbm_total_memory{id="0"} 32255 1613993498553
npu_chip_info_hbm_total_memory{id="1"} 32255 1613993498588
npu_chip_info_hbm_total_memory{id="2"} 32255 1613993498615
...
- 如果进程运行在主机上,Pod没有使用NPU,则pod_name、container_name和namespace的值将为空。
- Atlas A2 训练系列产品没有DDR模块,不上报相关指标。
- 若查询某个指标时,MindCluster NPU Exporter组件不支持该设备形态、调用DCMI接口或者调用hccn_tool工具失败,则不会上报该指标。
指标名称 |
指标说明 |
指标标签字段 |
字段类型 |
指标数值 |
|---|---|---|---|---|
machine_npu_nums |
昇腾AI处理器数目 |
- |
单位:个 |
|
npu_exporter_version_info |
MindCluster NPU Exporter版本信息 |
exporterVersion:当前MindCluster NPU Exporter版本信息 |
string |
1:占位字符,无实际含义 |
npu_chip_info_bandwidth_rx |
昇腾AI处理器网口实时接收速率(仅支持训练产品) |
container_name:容器名 |
string |
单位:MB/s |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_bandwidth_tx |
昇腾AI处理器网口实时发送速率(仅支持训练产品) |
container_name:容器名 |
string |
单位:MB/s |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_link_status |
昇腾AI处理器网口Link状态(仅支持训练产品) |
container_name:容器名 |
string |
取值为0或1
|
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_network_status |
昇腾AI处理器网络健康状态(仅支持训练产品) |
container_name:容器名 |
string |
取值为0或1
|
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_error_code |
昇腾AI处理器错误码 |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_name |
昇腾AI处理器名称和ID |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_health_status |
昇腾AI处理器健康状态 |
container_name:容器名 |
string |
取值为0或1
|
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_power |
昇腾AI处理器功耗 说明: Atlas 训练系列产品、Atlas A2 训练系列产品和推理服务器(插Atlas 300I 推理卡)为昇腾AI处理器功耗;Atlas 推理系列产品为板卡功耗。 |
container_name:容器名 |
string |
单位:瓦特(W) |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_temperature |
昇腾AI处理器温度 |
container_name:容器名 |
string |
单位:摄氏度(℃) |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_used_memory |
昇腾AI处理器DDR内存已使用量 |
container_name:容器名 |
string |
单位:MB |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_total_memory |
昇腾AI处理器DDR内存总量 |
container_name:容器名 |
string |
单位:MB |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_used_memory |
昇腾AI处理器片上内存已使用量(仅支持训练产品) |
container_name:容器名 |
string |
单位:MB |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_total_memory |
昇腾AI处理器片上总内存(仅支持训练产品) |
container_name:容器名 |
string |
单位:MB |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_enable_flag |
昇腾AI处理器片上内存的ECC使能状态(仅支持训练产品) |
container_name:容器名 |
string |
取值为1或0
|
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_single_bit_error_cnt |
昇腾AI处理器片上内存单比特当前错误计数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_double_bit_error_cnt |
昇腾AI处理器片上内存多比特当前错误计数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_total_single_bit_error_cnt |
昇腾AI处理器片上内存生命周期内所有单比特错误数量(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_total_double_bit_error_cnt |
昇腾AI处理器片上内存生命周期内所有多比特错误数量(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_single_bit_isolated_pages_cnt |
昇腾AI处理器片上内存单比特错误隔离内存页数量(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_hbm_ecc_double_bit_isolated_pages_cnt |
昇腾AI处理器片上内存多比特错误隔离内存页数量(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_utilization |
昇腾AI处理器AI Core利用率 |
container_name:容器名 |
string |
单位:% |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_aicore_current_freq |
昇腾AI处理器的AI Core当前频率 |
container_name:容器名 |
string |
单位:MHz |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_process_info |
占用昇腾AI处理器的进程的信息,取值为进程使用的内存 |
container_name:容器名,输出格式为“Pod Namesapce_Pod名_容器名”。如果进程运行在宿主机上,该值为空。 |
string |
单位:MB |
container_id:容器ID |
string |
|||
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
process_id:
|
string |
|||
npu_chip_info_voltage |
昇腾AI处理器电压 |
container_name:容器名 |
string |
单位:伏特(V) |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_vector_utilization |
昇腾AI处理器AI Vector利用率(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:% |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_pcie_rx_p_bw |
昇腾AI处理器向远端写PCIe带宽(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:MB/ms |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
pcie_bw_type:向远端写PCIe带宽的统计值
|
string |
|||
npu_chip_info_pcie_rx_np_bw |
昇腾AI处理器从远端读PCIe带宽(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:MB/ms |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
pcie_bw_type:从远端读PCIe带宽的统计值
|
string |
|||
npu_chip_info_pcie_rx_cpl_bw |
昇腾AI处理器回复远端读操作CPL的带宽(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:MB/ms |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
pcie_bw_type:回复远端读操作CPL的带宽的统计值
|
string |
|||
npu_chip_info_pcie_tx_p_bw |
昇腾AI处理器接收远端写的PCIe带宽(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:MB/ms |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
pcie_bw_type:接收远端写的PCIe带宽的统计值
|
string |
|||
npu_chip_info_pcie_tx_np_bw |
昇腾AI处理器从远端读的PCIe带宽(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:MB/ms |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
pcie_bw_type:接收远端读的PCIe带宽的统计值
|
string |
|||
npu_chip_info_pcie_tx_cpl_bw |
昇腾AI处理器设备回复远端读操作CPL的PCIe带宽(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
单位:MB/ms |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
pcie_bw_type:从远端读收到CPL回复的带宽的统计值
|
string |
|||
npu_chip_info_rx_ecn_num |
昇腾AI处理器网络接收ECN数(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_info_rx_fcs_num |
昇腾AI处理器网络接收FCS数(仅支持Atlas A2 训练系列产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_container_info |
NPU容器信息 |
containerID:容器ID |
string |
- |
containerName:容器名,输出格式为“Pod Namespace_Pod名_容器名” |
string |
|||
container_name:容器名 |
string |
|||
npuID:NPU ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
container_npu_total_memory |
带有容器信息的NPU内存总大小,只支持整卡 |
container_name:容器名 |
string |
单位:MB |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
container_npu_used_memory |
带有容器信息的NPU已使用内存,只支持整卡 |
container_name:容器名 |
string |
单位:MB |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
container_npu_utilization |
带有容器信息的NPU的AI Core利用率,只支持整卡 |
container_name:容器名 |
string |
单位:% |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
vnpu_pod_aicore_utilization |
vNPU的AI Core利用率(仅Atlas 推理系列产品支持) |
aicore_count:vNPU核数 |
float |
单位:% |
container_name:容器名 |
string |
|||
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pod_name:Pod名 |
string |
|||
v_dev_id:vNPU唯一标识 |
string |
|||
is_virtual:是否是虚拟设备 |
bool |
|||
vnpu_pod_total_memory |
vNPU拥有的总内存(仅Atlas 推理系列产品支持) |
aicore_count:vNPU核数 |
float |
单位:KB |
container_name:容器名 |
string |
|||
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pod_name:Pod名 |
string |
|||
v_dev_id:vNPU唯一标识 |
string |
|||
is_virtual:是否是虚拟设备 |
bool |
|||
vnpu_pod_used_memory |
vNPU使用中的内存(仅Atlas 推理系列产品支持) |
aicore_count:vNPU核数 |
float |
单位:KB |
container_name:容器名 |
string |
|||
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pod_name:Pod名 |
string |
|||
v_dev_id:vNPU唯一标识 |
string |
|||
is_virtual:是否是虚拟设备 |
bool |
|||
npu_chip_link_speed |
网口默认速率(仅支持训练产品) |
container_name:容器名 |
string |
单位:Mb/s |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_link_up_num |
网口up的统计次数(仅支持训练产品) |
container_name:容器名 |
string |
单位:次 |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_rx_pause_num |
MAC接收的pause帧总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_tx_pause_num |
MAC发送的pause帧总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_rx_pfc_pkt_num |
MAC接收的PFC帧总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_tx_pfc_pkt_num |
MAC发送的PFC帧总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_rx_bad_pkt_num |
MAC接收的坏包总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_tx_bad_pkt_num |
MAC发送的坏包总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_rx_all_pkt_num |
RoCEE接收的总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_tx_all_pkt_num |
RoCEE发送的总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_rx_err_pkt_num |
RoCEE接收的坏包的总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_tx_err_pkt_num |
RoCEE发送的坏包总报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_rx_cnp_pkt_num |
RoCEE接收的CNP类型报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_tx_cnp_pkt_num |
RoCEE发送的CNP类型报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_new_pkt_rty_num |
RoCEE发送的超次重传的数量统计(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_tx_bad_oct_num |
MAC发送的坏包总报文字节数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_mac_rx_bad_oct_num |
MAC接收的坏包总报文字节数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_unexpected_ack_num |
RoCEE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_out_of_order_num |
RoCEE接收的PSN>预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_verification_err_num |
RoCEE接收的域段校验错误的报文数,如:icrc、报文长度、目的端口号等校验失败(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_roce_qp_status_err_num |
RoCEE接收的QP连接状态异常产生的报文数(仅支持训练产品) |
container_name:容器名 |
string |
- |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_optical_state |
光模块在位状态(仅支持训练产品) |
container_name:容器名 |
string |
取值为0或1
|
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_optical_tx_power_X (X范围为0~3) |
光模块发送功率(仅支持训练产品) |
container_name:容器名 |
string |
单位:mW |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_optical_rx_power_X (X范围为0~3) |
光模块接收功率(仅支持训练产品) |
container_name:容器名 |
string |
单位:mW |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_optical_vcc |
光模块电压(仅支持训练产品) |
container_name:容器名 |
string |
单位:mV |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
npu_chip_optical_temp |
光模块温度(仅支持训练产品) |
container_name:容器名 |
string |
单位:摄氏度(℃) |
id:NPU的ID |
string |
|||
model_name:昇腾AI处理器名称 |
string |
|||
namespace:命名空间名 |
string |
|||
pcie_bus_info:昇腾AI处理器的PCIe信息 |
string |
|||
pod_name:Pod名 |
string |
|||
vdie_id:昇腾AI处理器唯一标识,可作为NPU的UUID |
string |
|||
状态码
状态码 |
含义 |
|---|---|
200 |
正常状态。 |
307 |
临时跳转。 |
500 |
服务器内部错误。 |