Telegraf指标说明
... Ascend910-0,host=xxx npu_chip_link_speed=104857600000i,npu_chip_roce_rx_cnp_pkt_num=0i,npu_chip_roce_unexpected_ack_num=0i,npu_chip_optical_vcc=3245.1,npu_chip_optical_rx_power_1=0.8585,npu_chip_info_hbm_used_memory=0i,npu_chip_mac_rx_pause_num=0i,npu_chip_roce_tx_all_pkt_num=0i,npu_chip_roce_tx_cnp_pkt_num=0i,npu_chip_info_temperature=46,npu_chip_mac_rx_bad_pkt_num=0i,npu_chip_roce_tx_err_pkt_num=0i,npu_chip_optical_rx_power_3=0.8466,npu_chip_optical_rx_power_0=0.7933,npu_chip_info_network_status=0i,npu_chip_mac_rx_pfc_pkt_num=0i,npu_chip_mac_tx_bad_pkt_num=0i,npu_chip_roce_rx_all_pkt_num=0i,npu_chip_mac_rx_bad_oct_num=0i,npu_chip_optical_tx_power_1=0.9162,npu_chip_info_utilization=0,npu_chip_info_power=73.9000015258789,npu_chip_info_link_status=1i,npu_chip_info_bandwidth_rx=0,npu_chip_mac_tx_pfc_pkt_num=0i,npu_chip_roce_rx_err_pkt_num=0i,npu_chip_roce_verification_err_num=0i,npu_chip_optical_state=1i,npu_chip_info_bandwidth_tx=0,npu_chip_mac_tx_bad_oct_num=0i,npu_chip_roce_out_of_order_num=0i,npu_chip_roce_qp_status_err_num=0i,npu_chip_optical_rx_power_2=0.855,npu_chip_optical_tx_power_0=0.9095,npu_chip_info_hbm_utilization=0,npu_chip_link_up_num=2i,npu_chip_info_health_status=1i,npu_chip_mac_tx_pause_num=0i,npu_chip_roce_new_pkt_rty_num=0i,npu_chip_optical_temp=53,npu_chip_optical_tx_power_2=1.0342,npu_chip_optical_tx_power_3=0.9715 1694772754612200641,npu_chip_info_process_info_num=0i
- Telegraf当前只支持监测Atlas 800T A2 训练服务器设备的相关指标。
- 若查询某个指标时,MindCluster NPU Exporter组件不支持该设备形态、调用DCMI接口或者调用hccn_tool工具失败,则不会上报该指标。
指标名称 |
指标说明 |
指标数值 |
|---|---|---|
npu_chip_info_network_status |
昇腾AI处理器的网络健康状态。 |
取值为0或1
|
npu_chip_info_health_status |
昇腾AI处理器健康状态。 |
取值为0或
|
npu_chip_info_power |
昇腾AI处理器功耗。 |
单位:瓦特(W) |
npu_chip_info_temperature |
昇腾AI处理器温度。 |
单位:摄氏度(℃) |
npu_chip_info_hbm_used_memory |
昇腾AI处理器的片上内存已使用量。 |
单位:MB |
npu_chip_info_hbm_utilization |
昇腾AI处理器的片上内存利用率。 |
单位:% |
npu_chip_info_utilization |
昇腾AI处理器的AI Core利用率。 |
单位:% |
npu_chip_info_bandwidth_rx |
昇腾AI处理器的网口实时接收速率。 |
单位:B/s |
npu_chip_info_bandwidth_tx |
昇腾AI处理器的网口实时发送速率。 |
单位:B/s |
npu_chip_info_link_status |
昇腾AI处理器的网口Link状态。 |
取值为0或1
|
npu_chip_link_speed |
昇腾AI处理器网口速率。 |
单位:b/s |
npu_chip_link_up_num |
昇腾AI处理器的网口up的统计次数。 |
- |
npu_chip_mac_rx_pause_num |
MAC接收的pause帧总报文数。 |
- |
npu_chip_mac_tx_pause_num |
MAC发送的pause帧总报文数。 |
- |
npu_chip_mac_rx_pfc_pkt_num |
MAC接收的PFC帧总报文数。 |
- |
npu_chip_mac_tx_pfc_pkt_num |
MAC发送的PFC帧总报文数。 |
- |
npu_chip_mac_rx_bad_pkt_num |
MAC接收的坏包总报文数。 |
- |
npu_chip_mac_tx_bad_pkt_num |
MAC发送的坏包总报文数。 |
- |
npu_chip_roce_rx_all_pkt_num |
RoCEE接收的总报文数。 |
- |
npu_chip_roce_tx_all_pkt_num |
RoCEE发送的总报文数。 |
- |
npu_chip_roce_rx_err_pkt_num |
RoCEE接收的坏包总报文数。 |
- |
npu_chip_roce_tx_err_pkt_num |
RoCEE发送的坏包总报文数。 |
- |
npu_chip_roce_rx_cnp_pkt_num |
RoCEE接收的CNP类型报文数。 |
- |
npu_chip_roce_tx_cnp_pkt_num |
RoCEE发送的CNP类型报文数。 |
- |
npu_chip_roce_new_pkt_rty_num |
RoCEE发送的超次重传的数量统计。 |
- |
npu_chip_mac_tx_bad_oct_num |
MAC发送的坏包总报文字节数。 |
- |
npu_chip_mac_rx_bad_oct_num |
MAC接收的坏包总报文字节数。 |
- |
npu_chip_roce_unexpected_ack_num |
RoCEE接收的非预期ACK报文数,NPU做丢弃处理,不影响业务。 |
- |
npu_chip_roce_out_of_order_num |
RoCEE接收的PSN > 预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传。 |
- |
npu_chip_roce_verification_err_num |
RoCEE接收的域段校验错误的报文数,如:icrc、报文长度、目的端口号等校验失败。 |
- |
npu_chip_roce_qp_status_err_num |
RoCEE接收的QP连接状态异常产生的报文数。 |
- |
npu_chip_optical_state |
光模块在位状态。 |
取值为0或1
|
npu_chip_optical_tx_power_X(X范围:0~3) |
光模块发送功率。 |
单位:mW |
npu_chip_optical_rx_power_X(X范围:0~3) |
光模块接收功率。 |
单位:mW |
npu_chip_optical_vcc |
光模块电压。 |
单位:mV |
npu_chip_optical_temp |
光模块温度。 |
单位:摄氏度(℃) |
npu_chip_info_error_code_X |
昇腾AI处理器的错误码,X表示错误码的索引,最多支持上报128个错误码。当昇腾AI处理器上没有错误码时,不会上报该字段。 |
- |
npu_chip_info_process_info_num |
占用昇腾AI处理器的进程数量。 |
- |