通过Prometheus使用
本章节指导用户安装部署Prometheus软件,并通过Prometheus查看资源监测的相关指标,指标的相关说明可参见Prometheus Metrics接口章节。
操作步骤
- 从MindXDL-deploy仓库中获取prometheus.yaml文件,并执行以下命令获取镜像。
docker pull prom/prometheus:v2.10.0
- 获取镜像前,请确保能够正常访问互联网。
- 若不使用集群调度组件提供的prometheus.yaml,需要参考该yaml在相应位置加上app: prometheus字段,否则可能出现MindCluster NPU Exporter连接超时。
- prometheus.yaml已经默认包含获取MindCluster NPU Exporter metrics的相关的配置文件,用户可以根据需求自行修改相应的配置。以下加粗部分为获取的MindCluster NPU Exporter metrics的相关配置。
... apiVersion: v1 kind: ConfigMap metadata: name: prometheus-config namespace: kube-system data: prometheus.yml: | global: scrape_interval: 15s evaluation_interval: 15s scrape_configs: ... - job_name: 'kubernetes-npu-exporter' kubernetes_sd_configs: - role: pod scheme: http relabel_configs: - action: keep source_labels: [__meta_kubernetes_namespace] regex: npu-exporter - source_labels: [__meta_kubernetes_pod_node_name] target_label: job replacement: ${1} ... - 执行以下命令,给管理节点打标签。
kubectl label nodes <管理节点Hostname> masterselector=dls-master-node --overwrite=true
- 将“prometheus.yaml”上传至环境任意路径下。
- 在“prometheus.yaml”存放路径,执行以下命令,启动Prometheus服务。
kubectl apply -f prometheus.yaml
回显如下,表示启动成功。
[root@centos check_env]# kubectl apply -f promethues.yaml clusterrole.rbac.authorization.k8s.io/prometheus created serviceaccount/prometheus created clusterrolebinding.rbac.authorization.k8s.io/prometheus created service/prometheus created deployment.apps/prometheus created configmap/prometheus-config created
- 查看Pod状态,Running状态表示服务正常。
kubectl get pods --all-namespaces | grep prometheus
回显示例如下:
kube-system prometheus-58c69548b4-rhxsc 1/1 Running 0 6d14h
- 登录Prometheus服务,查看监测的指标。
- 打开浏览器。
- 在浏览器中输入“http://管理节点IP地址:端口号”并按“Enter”。
在prometheus.yaml文件中找到nodePort字段,该字段的值为Prometheus服务的端口号,默认为30003。
- 选择NPU的相关标签,查看对应指标。