使用前必读
资源监测主要包含2个方面的实时监测:对Atlas 推理系列产品的虚拟NPU(vNPU)的AI Core利用率、vNPU总内存和vNPU使用中内存进行监测;对训练或者推理任务中NPU资源各种数据信息的实时监测,即实时获取昇腾AI处理器利用率、温度、电压、内存,以及昇腾AI处理器在容器中的分配状况等信息。关于资源监测所依赖组件及使用说明的详细介绍,请参见资源监测章节。
资源监测特性是一个基础特性,不区分训练或者推理场景;同时也不区分使用Volcano调度器或者使用其他调度器场景。资源监测特性需要用户配合Prometheus或Telegraf中的一种使用,如果配合Prometheus使用,则需要在部署Prometheus后通过调用NPU Exporter相关接口,实现资源监测,如果配合Telegraf使用,则需要部署和运行Telegraf,实现资源监测。
- Prometheus是一个开源的完整监测解决方案,具有易管理、高效、可扩展、可视化等特点,搭配NPU Exporter组件使用,可实现对昇腾AI处理器利用率、温度、电压、内存,以及昇腾AI处理器在容器中的分配状况等信息的实时监测。支持对Atlas 推理系列产品的虚拟NPU(vNPU)的AI Core利用率、vNPU总内存和vNPU使用中内存进行监测。
- Telegraf用于收集系统和服务的统计数据,具有内存占用小和支持其他服务的扩展等功能。搭配NPU Exporter组件使用,可以在环境上通过回显查看上报的昇腾AI处理器的相关信息。
使用说明
资源监测可以和训练或推理场景下的所有特性一起使用。
支持的产品形态
支持以下产品使用资源监测。
- Atlas 训练系列产品
- Atlas A2 训练系列产品
- 推理服务器(插Atlas 300I 推理卡)
- Atlas 推理系列产品
- Atlas 800I A2 推理服务器