开发者
资源

Telegraf指标说明

运行Telegraf后,会显示监测的昇腾AI处理器的指标,回显示例如下,仅供参考,以实际回显为准。指标的详细说明见表1
...
Ascend910-0,host=xxx  npu_chip_link_speed=104857600000i,npu_chip_roce_rx_cnp_pkt_num=0i,npu_chip_roce_unexpected_ack_num=0i,npu_chip_optical_vcc=3245.1,npu_chip_optical_rx_power_1=0.8585,npu_chip_info_hbm_used_memory=0i,npu_chip_mac_rx_pause_num=0i,npu_chip_roce_tx_all_pkt_num=0i,npu_chip_roce_tx_cnp_pkt_num=0i,npu_chip_info_temperature=46,npu_chip_mac_rx_bad_pkt_num=0i,npu_chip_roce_tx_err_pkt_num=0i,npu_chip_optical_rx_power_3=0.8466,npu_chip_optical_rx_power_0=0.7933,npu_chip_info_network_status=0i,npu_chip_mac_rx_pfc_pkt_num=0i,npu_chip_mac_tx_bad_pkt_num=0i,npu_chip_roce_rx_all_pkt_num=0i,npu_chip_mac_rx_bad_oct_num=0i,npu_chip_optical_tx_power_1=0.9162,npu_chip_info_utilization=0,npu_chip_info_power=73.9000015258789,npu_chip_info_link_status=1i,npu_chip_info_bandwidth_rx=0,npu_chip_mac_tx_pfc_pkt_num=0i,npu_chip_roce_rx_err_pkt_num=0i,npu_chip_roce_verification_err_num=0i,npu_chip_optical_state=1i,npu_chip_info_bandwidth_tx=0,npu_chip_mac_tx_bad_oct_num=0i,npu_chip_roce_out_of_order_num=0i,npu_chip_roce_qp_status_err_num=0i,npu_chip_optical_rx_power_2=0.855,npu_chip_optical_tx_power_0=0.9095,npu_chip_info_hbm_utilization=0,npu_chip_link_up_num=2i,npu_chip_info_health_status=1i,npu_chip_mac_tx_pause_num=0i,npu_chip_roce_new_pkt_rty_num=0i,npu_chip_optical_temp=53,npu_chip_optical_tx_power_2=1.0342,npu_chip_optical_tx_power_3=0.9715 1694772754612200641,npu_chip_info_process_info_num=0i
  • Telegraf当前只支持监测Atlas 800T A2 训练服务器设备的相关指标。
  • 若查询某个指标时,MindCluster NPU Exporter组件不支持该设备形态、调用DCMI接口或者调用hccn_tool工具失败,则不会上报该指标。
表1 labels

指标名称

指标说明

指标数值

npu_chip_info_network_status

昇腾AI处理器的网络健康状态

取值为0或1

  • 1:健康,可以联通
  • 0:不健康,无法联通

npu_chip_info_health_status

昇腾AI处理器健康状态。

取值为0或

  • 1:健康
  • 0:不健康

npu_chip_info_power

昇腾AI处理器功耗。

单位:瓦特(W)

npu_chip_info_temperature

昇腾AI处理器温度。

单位:摄氏度(℃)

npu_chip_info_hbm_used_memory

昇腾AI处理器的片上内存已使用量。

单位:MB

npu_chip_info_hbm_utilization

昇腾AI处理器的片上内存利用率。

单位:%

npu_chip_info_utilization

昇腾AI处理器的AI Core利用率。

单位:%

npu_chip_info_bandwidth_rx

昇腾AI处理器的网口实时接收速率。

单位:B/s

npu_chip_info_bandwidth_tx

昇腾AI处理器的网口实时发送速率。

单位:B/s

npu_chip_info_link_status

昇腾AI处理器的网口Link状态。

取值为0或1

  • 1:UP
  • 0:DOWN

npu_chip_link_speed

昇腾AI处理器网口速率。

单位:b/s

npu_chip_link_up_num

昇腾AI处理器的网口up的统计次数。

-

npu_chip_mac_rx_pause_num

MAC接收的pause帧总报文数。

-

npu_chip_mac_tx_pause_num

MAC发送的pause帧总报文数。

-

npu_chip_mac_rx_pfc_pkt_num

MAC接收的PFC帧总报文数。

-

npu_chip_mac_tx_pfc_pkt_num

MAC发送的PFC帧总报文数。

-

npu_chip_mac_rx_bad_pkt_num

MAC接收的坏包总报文数。

-

npu_chip_mac_tx_bad_pkt_num

MAC发送的坏包总报文数。

-

npu_chip_roce_rx_all_pkt_num

RoCEE接收的总报文数。

-

npu_chip_roce_tx_all_pkt_num

RoCEE发送的总报文数。

-

npu_chip_roce_rx_err_pkt_num

RoCEE接收的坏包总报文数。

-

npu_chip_roce_tx_err_pkt_num

RoCEE发送的坏包总报文数。

-

npu_chip_roce_rx_cnp_pkt_num

RoCEE接收的CNP类型报文数。

-

npu_chip_roce_tx_cnp_pkt_num

RoCEE发送的CNP类型报文数。

-

npu_chip_roce_new_pkt_rty_num

RoCEE发送的超次重传的数量统计。

-

npu_chip_mac_tx_bad_oct_num

MAC发送的坏包总报文字节数。

-

npu_chip_mac_rx_bad_oct_num

MAC接收的坏包总报文字节数。

-

npu_chip_roce_unexpected_ack_num

RoCEE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务。

-

npu_chip_roce_out_of_order_num

RoCEE接收的PSN > 预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传。

-

npu_chip_roce_verification_err_num

RoCEE接收的域段校验错误的报文数,如:icrc、报文长度、目的端口号等校验失败。

-

npu_chip_roce_qp_status_err_num

RoCEE接收的QP连接状态异常产生的报文数。

-

npu_chip_optical_state

光模块在位状态。

取值为0或1

  • 0:不在位
  • 1:在位

npu_chip_optical_tx_power_X(X范围:0~3)

光模块发送功率。

单位:mW

npu_chip_optical_rx_power_X(X范围:0~3)

光模块接收功率。

单位:mW

npu_chip_optical_vcc

光模块电压。

单位:mV

npu_chip_optical_temp

光模块温度。

单位:摄氏度(℃)

npu_chip_info_error_code_X

昇腾AI处理器的错误码,X表示错误码的索引,最多支持上报128个错误码。当昇腾AI处理器上没有错误码时,不会上报该字段。

-

npu_chip_info_process_info_num

占用昇腾AI处理器的进程数量。

-