使用前必读

资源监测主要包含2个方面的实时监测：对Atlas 推理系列产品的虚拟NPU（vNPU）的AI Core利用率、vNPU总内存和vNPU使用中内存进行监测；对训练或者推理任务中NPU资源各种数据信息的实时监测，即实时获取昇腾AI处理器利用率、温度、电压、内存，以及昇腾AI处理器在容器中的分配状况等信息。关于资源监测所依赖组件及使用说明的详细介绍，请参见资源监测章节。

资源监测特性是一个基础特性，不区分训练或者推理场景；同时也不区分使用Volcano调度器或者使用其他调度器场景。资源监测特性需要用户配合Prometheus或Telegraf中的一种使用，如果配合Prometheus使用，则需要在部署Prometheus后通过调用NPU Exporter相关接口，实现资源监测，如果配合Telegraf使用，则需要部署和运行Telegraf，实现资源监测。