使用前必读

资源监测特性是一个基础特性，不区分训练或者推理场景；同时也不区分使用Volcano调度器或者使用其他调度器场景。

资源监测特性需要用户配合Prometheus或Telegraf中的一种使用。如果配合Prometheus使用，则需要在部署Prometheus后通过调用NPU Exporter相关接口，实现资源监测；如果配合Telegraf使用，则需要部署和运行Telegraf，实现资源监测。

Prometheus是一个开源的完整监测解决方案，具有易管理、高效、可扩展、可视化等特点，搭配NPU Exporter组件使用，可实现对昇腾AI处理器利用率、温度、电压、内存，以及昇腾AI处理器在容器中的分配状况等信息的实时监测。支持对Atlas 推理系列产品的虚拟NPU（vNPU）的AI Core利用率、vNPU总内存和vNPU使用中内存进行监测。
Telegraf用于收集系统和服务的统计数据，具有内存占用小和支持其他服务的扩展等功能。搭配NPU Exporter组件使用，可以在环境上通过回显查看上报的昇腾AI处理器的相关信息。

前提条件

在使用资源监测特性前，需要确保NPU Exporter组件已经安装，若没有安装，可以参考安装部署章节进行操作。

使用说明

资源监测可以和训练场景下的所有特性一起使用，也可以和推理场景的所有特性一起使用。

支持的产品形态

支持以下产品使用资源监测。

Atlas 训练系列产品
Atlas A2 训练系列产品
推理服务器（插Atlas 300I 推理卡）
Atlas 推理系列产品
Atlas 800I A2 推理服务器