开发者
资源

通过Prometheus使用

本章节指导用户安装部署Prometheus软件,并通过Prometheus查看资源监测的相关指标,指标的相关说明可参见Prometheus Metrics接口章节。

操作步骤

  1. MindXDL-deploy仓库中获取prometheus.yaml文件,并执行以下命令获取镜像。
    docker pull prom/prometheus:v2.10.0
    • 获取镜像前,请确保能够正常访问互联网。
    • 若不使用集群调度组件提供的prometheus.yaml,需要参考该yaml在相应位置加上app: prometheus字段,否则可能出现MindCluster NPU Exporter连接超时。
  2. prometheus.yaml已经默认包含获取MindCluster NPU Exporter metrics的相关的配置文件,用户可以根据需求自行修改相应的配置。以下加粗部分为获取的MindCluster NPU Exporter metrics的相关配置。
    ...
    apiVersion: v1
    kind: ConfigMap
    metadata:
      name: prometheus-config
      namespace: kube-system
    data:
      prometheus.yml: |
        global:
          scrape_interval:     15s
          evaluation_interval: 15s
        scrape_configs:
    ...
        - job_name: 'kubernetes-npu-exporter'
          kubernetes_sd_configs:
          - role: pod
          scheme: http
          relabel_configs:
          - action: keep
            source_labels: [__meta_kubernetes_namespace]
            regex: npu-exporter
          - source_labels: [__meta_kubernetes_pod_node_name]
            target_label: job
            replacement: ${1}
    ...
  3. 执行以下命令,给管理节点打标签。
    kubectl label nodes <管理节点Hostname> masterselector=dls-master-node --overwrite=true
  4. “prometheus.yaml”上传至环境任意路径下。
  5. “prometheus.yaml”存放路径,执行以下命令,启动Prometheus服务。
    kubectl apply -f prometheus.yaml

    回显如下,表示启动成功。

    [root@centos check_env]# kubectl apply -f promethues.yaml 
    clusterrole.rbac.authorization.k8s.io/prometheus created
    serviceaccount/prometheus created
    clusterrolebinding.rbac.authorization.k8s.io/prometheus created
    service/prometheus created
    deployment.apps/prometheus created
    configmap/prometheus-config created
  6. 查看Pod状态,Running状态表示服务正常。
    kubectl get pods --all-namespaces | grep prometheus

    回显示例如下:

    kube-system      prometheus-58c69548b4-rhxsc                1/1     Running            0          6d14h
  7. 登录Prometheus服务,查看监测的指标。
    1. 打开浏览器。
    2. 在浏览器中输入“http://管理节点IP地址:端口号”并按“Enter”。

      在prometheus.yaml文件中找到nodePort字段,该字段的值为Prometheus服务的端口号,默认为30003。

    3. 选择NPU的相关标签,查看对应指标。