NPU-Exporter

MindCluster NPU Exporter支持对接Prometheus或Telegraf。

对接Prometheus时，支持通过容器部署和二进制部署两种方式安装MindCluster NPU Exporter，部署差异可参考容器和二进制部署差异。
对接Telegraf时，参考《MindX DL 集群调度用户指南》中的“资源监测 > 通过Telegraf使用”章节，安装MindCluster NPU Exporter和Telegraf。

当前只支持Atlas 800T A2 训练服务器设备通过Telegraf使用资源监测特性。

使用约束

在安装MindCluster NPU Exporter前，需要提前了解相关约束，具体说明请参见表1。

表1 约束说明
使用场景	约束说明
NPU驱动	MindCluster NPU Exporter会周期性调用NPU驱动的相关接口以检测NPU状态。如果要升级驱动，请先停止业务任务，再停止MindCluster NPU Exporter容器服务。
K8s版本	使用MindCluster NPU Exporter前需要确保环境的K8s版本，若K8s版本在1.24.x及以上版本，需要用户自行安装cri-dockerd依赖。
DCMI动态库	DCMI动态库目录权限要求如下： MindCluster NPU Exporter调用的DCMI动态库其所有父目录，需要满足属主为root，其他属主程序无法运行；同时，这些文件及其目录需满足group和other不具备写权限。
	DCMI动态库路径深度必须小于20。
	如果通过设置LD_LIBRARY_PATH设置动态库路径，LD_LIBRARY_PATH环境变量总长度不能超过1024。
Atlas 200I SoC A1 核心板	Atlas 200I SoC A1 核心板使用MindCluster NPU Exporter组件，需要确保Atlas 200I SoC A1 核心板的NPU驱动在23.0.RC2及以上版本。升级NPU驱动可参考《Atlas 200I SoC A1 核心板 NPU驱动和固件升级指南》进行操作。
Atlas 200I SoC A1 核心板	Atlas 200I SoC A1 核心板节点上使用容器化部署MindCluster NPU Exporter，需要配置多容器共享模式，具体请参考《Atlas 200I SoC A1 核心板 NPU驱动和固件安装指南》。
虚拟机场景	如果在虚拟机场景下部署MindCluster NPU Exporter，需要在MindCluster NPU Exporter的镜像中安装systemd，推荐在Dockerfile中加入RUN apt-get update && apt-get install -y systemd命令进行安装。

操作步骤

MindCluster NPU Exporter支持两种安装方式，用户可根据实际情况选择其中一种进行安装。该组件仅提供HTTP服务，如需使用更为安全的HTTPS服务，请自行修改源码进行适配。

（推荐）以容器化方式运行，安装步骤参见容器化方式运行。
当安全要求较高时，建议在物理机上以二进制方式运行，安装步骤参见二进制方式运行。

容器化方式运行

以root用户登录各计算节点，并执行以下命令，查看MindCluster NPU Exporter镜像和版本号是否正确。
```
docker images | grep npu-exporter
```
回显示例如下：
```
npu-exporter                         v5.0.0.2              20185c45f1bc        About an hour ago         90.1MB
```
- 是，执行步骤2。
- 否，请参见准备镜像，完成镜像制作和分发。
将软件包中获取的yaml文件拷贝到K8s管理节点上。

如果使用默认的MindCluster NPU Exporter启动参数“-containerMode=docker”，可跳过本步骤。

如果是Containerd场景，需要将containerMode设置为containerd，即“-containerMode=containerd”。

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: npu-exporter
  namespace: npu-exporter
spec:
  selector:
    matchLabels:
      app: npu-exporter
...
    spec:
...
        volumeMounts:
...
          - name: docker-shim                                        # 仅使用containerd时需要删除
            mountPath: /var/run/dockershim.sock
            readOnly: true
          - name: docker                                       # 仅使用containerd时删除
            mountPath: /var/run/docker
            readOnly: true
           - name: cri-dockerd                                 # 当k8s版本为1.24+且容器运行时为docker时保留
             mountPath: /var/run/cri-dockerd.sock
             readOnly: true
            - name: containerd                             
               mountPath: /run/containerd
               readOnly: true
            - name: isulad                                # 使用containerd或者docker时删除
               mountPath: /run/isulad.sock
               readOnly: true
...
      volumes:
...
        - name: docker-shim                             # 仅使用containerd时删除
          hostPath:
            path: /var/run/dockershim.sock
        - name: docker                                # 仅使用containerd时删除
          hostPath:
            path: /var/run/docker
         - name: cri-dockerd                           # 当k8s版本为1.24+且容器运行时为docker时保留
           hostPath:
             path: /var/run/cri-dockerd.sock
         - name: containerd                            
            hostPath:
            path: /run/containerd
        - name: isulad                                # 使用containerd或者docker时删除
           hostPath:
            path: /run/isulad.sock

...

如不修改组件的其他启动参数，可跳过本步骤。否则，请根据实际情况修改yaml文件中MindCluster NPU Exporter的启动参数。启动参数如表2所示，也可执行./npu-exporter -h查看参数说明。
在管理节点的yaml所在路径，执行以下命令，启动MindCluster NPU Exporter。
```
kubectl apply -f npu-exporter-v{version}.yaml
```
- K8s集群中使用了Atlas 200I SoC A1 核心板节点，执行以下命令。
```
kubectl apply -f npu-exporter-310P-1usoc-v{version}.yaml
```
- K8s集群中使用了其他类型节点，执行以下命令。
```
kubectl apply -f npu-exporter-v{version}.yaml
```
如果K8s集群同时使用了Atlas 200I SoC A1 核心板和其他类型的节点，请分别执行对应命令。
启动示例如下：
```
root@ubuntu:/home/ascend-npu-exporter# kubectl apply -f npu-exporter-v5.0.0.2.yaml 
namespace/npu-exporter unchanged
networkpolicy.networking.K8s.io/exporter-network-policy unchanged
daemonset.apps/npu-exporter created
```
执行kubectl get pod -n npu-exporter命令，出现Running表示组件启动成功。若状态为CrashLoopBackOff，可能是因为目录权限不正确导致，可以参见NPU-Exporter检查动态路径失败，日志出现check uid or mode failed章节进行处理。
```
NAME                            READY   STATUS    RESTARTS   AGE
...
npu-exporter-hqpxl              1/1     Running   0          11s
```
MindCluster NPU Exporter的使用对进程环境有要求，以容器形式运行时，请确保“/sys”目录和容器运行时通信socket文件挂载至MindCluster NPU Exporter容器中。若通过调用MindCluster NPU Exporter的Metrics接口，没有获取到NPU容器的相关信息，该问题可能是因为socket文件路径不正确导致，可以参见日志出现connecting to container runtime failed章节进行处理。

二进制方式运行

MindCluster NPU Exporter组件以容器化方式运行时需使用特权容器、root用户和挂载了docker-shim或Containerd的socket文件，如果容器被人恶意利用，有容器逃逸风险。当安全性要求较高时，请直接在物理机上通过二进制方式运行。

以二进制方式运行MindCluster NPU Exporter需要将日志目录权限修改为非root，可以执行chown hwMindX:hwMindX /var/log/mindx-dl/npu-exporter命令修改日志权限。

使用root用户登录服务器。
将软件包上传至服务器的任意目录（如“/home/ascend-npu-exporter”）并进行解压操作。
执行以下命令，创建npu-exporter.service文件。
```
vi /home/ascend-npu-exporter/npu-exporter.service
```

参考如下内容，写入npu-exporter.service文件中。

[Unit]
Description=Ascend npu exporter
Documentation=hiascend.com

[Service]
ExecStart=/bin/bash -c "/usr/local/bin/npu-exporter -ip=127.0.0.1 -port=8082 -logFile=/var/log/mindx-dl/npu-exporter/npu-exporter.log>/dev/null  2>&1 &"
Restart=always
RestartSec=2
KillMode=process
Environment="GOGC=50"
Environment="GOMAXPROCS=2"
Environment="GODEBUG=madvdontneed=1"
Type=forking
User=hwMindX
Group=hwMindX

[Install]
WantedBy=multi-user.target

MindCluster NPU Exporter默认情况只侦听127.0.0.1，可通过修改的启动参数“-ip”和“npu-exporter.service”文件的“ExecStart”字段修改需要侦听的IP地址。
```
...
[Service]
ExecStart=/bin/bash -c "/usr/local/bin/npu-exporter -ip=127.0.0.1 -port=8082 -logFile=/var/log/mindx-dl/npu-exporter/npu-exporter.log &"
Restart=always
RestartSec=2
...
```
在节点上将hwMindX用户加入到HwBaseUser、HwDmUser用户组中。如果部署节点为Atlas 200I SoC A1 核心板，可跳过该步骤。可执行如下命令进行操作：
```
usermod -a -G HwBaseUser hwMindX
usermod -a -G HwDmUser hwMindX
```

依次执行以下命令，启用MindCluster NPU Exporter服务。

cd /home/ascend-npu-exporter
cp npu-exporter /usr/local/bin
cp npu-exporter.service /etc/systemd/system
chattr +i /etc/systemd/system/npu-exporter.service
chmod 500 /usr/local/bin/npu-exporter
chown hwMindX:hwMindX /usr/local/bin/npu-exporter
chattr +i /usr/local/bin/npu-exporter
systemctl enable npu-exporter
systemctl start npu-exporter

如果需要获取容器相关指标，MindCluster NPU Exporter需要临时提权以便于和CRI、OCI的socket建立连接，需要执行以下命令。

chattr -i /usr/local/bin/npu-exporter
setcap cap_setuid+ep /usr/local/bin/npu-exporter
chattr +i /usr/local/bin/npu-exporter
systemctl restart npu-exporter

安装组件后，组件的Pod状态不为Running，可参考组件Pod状态不为Running章节信息。
安装组件后，组件的Pod状态为ContainerCreating，可参考集群调度组件Pod处于ContainerCreating状态章节信息。
启动组件失败，可参考启动集群调度组件失败，日志打印“get sem errno =13”章节信息。
组件启动成功，找不到组件对应的Pod，可参考组件启动yaml执行成功，找不到组件对应的Pod章节信息。

参数说明

表2 MindCluster NPU Exporter启动参数
参数	类型	默认值	说明
-port	int	8082	侦听端口，范围1025~40000。
-updateTime	int	5	信息更新周期1~60秒。如果设置的时间过长，一些生存时间小于更新周期的容器可能无法上报。
-ip	string	无	参数无默认值，必须配置。侦听IP地址，在多网卡主机上不建议配置成0.0.0.0。
-version	bool	false	打印程序版本号。
-concurrency	int	5	HTTP服务的限流大小，默认5个并发，取值范围为[1，512]。
-logLevel	int	0	日志级别： -1：debug 0：info 1：warning 2：error 3：critical
-maxAge	int	7	日志备份时间限制，取值范围为[7，700]，单位为天。
-logFile	string	/var/log/mindx-dl/npu-exporter/npu-exporter.log	日志文件。说明：单个日志文件超过20 MB时会触发自动转储功能，文件大小上限不支持修改。转储后文件的命名格式为：npu-exporter-触发转储的时间.log，如：npu-exporter-2023-10-07T03-38-24.402.log。
-maxBackups	int	30	转储后日志文件保留个数上限，取值范围为(0，30]，单位为个。
-containerMode	string	docker	设置容器运行时类型。设置为“docker”表示当前环境使用Docker作为容器运行时。设置为“containerd”表示当前环境使用Containerd作为容器运行时。设置为“isula”表示当前环境使用iSula作为容器运行时。
-containerd	string	（Docker）unix：///var/run/docker/containerd/docker-containerd.sock （Containerd）unix：///run/containerd/containerd.sock （iSula）unix：///run/isulad.sock	containerd daemon进程endpoint，用于与Containerd通信。若containerMode=docker，则默认值为/var/run/docker/containerd/docker-containerd.sock；连接失败后，自动尝试连接：unix：///run/containerd/containerd.sock。若containerMode=containerd，则默认值为/run/containerd/containerd.sock。若containerMode=isula，则默认值为/run/isulad.sock。一般情况下使用默认值即可。若用户自行修改了Containerd的sock文件路径则需要进行相应路径的修改。可通过ps aux \| grep containerd命令查询Containerd的sock文件路径是否修改。
-endpoint	string	（Docker）unix:///var/run/dockershim.sock （Containerd）unix：///run/containerd/containerd.sock （iSula）unix：///run/isulad.sock	CRI server的sock地址：若containerMode=docker，将连接到dockershim获取容器列表，默认值/var/run/dockershim.sock；若containerMode=containerd，默认值/run/containerd/containerd.sock。若containerMode=isula，则默认值为/run/isulad.sock。一般情况下使用默认值即可，除非用户自行修改了dockershim或者Containerd的sock文件路径。
-limitIPConn	int	5	每个IP的TCP限制数的取值范围为[1，128]。
-limitTotalConn	int	20	程序总共的TCP限制数的取值范围为[1，512]。
-limitIPReq	string	20/1	每个IP的请求限制数，20/1表示1秒限制20个请求，“/”两侧最大只支持三位数。
-cacheSize	int	102400	[1，1024000]缓存key的数量限制。
-h或者-help	无	不涉及	显示帮助信息。
-platform	string	Prometheus	指定对接平台，取值如下： Prometheus：对接Prometheus Telegraf：对接Telegraf
-poll_interval	duration（int）	1	Telegraf数据上报的间隔时间，单位：秒。此参数在对接Telegraf平台时才起作用，即需要指定-platform=Telegraf时才生效，否则该参数不生效。

父主题： 手动安装