总线设备网络故障

总线设备网络故障是针对超节点内部(包括节点内和节点间)的HCCS网络提供的NPU网络故障检测。

上报机制

NodeD调用DCMI接口启动pingmesh任务,并周期性查询pingmesh结果,将该结果写入文件<nodename>.log。该文件所在目录在容器中为固定路径:/user/mind-cluster/pingmesh,物理机默认目录/user/mind-cluster/pingmesh。物理机路径可以修改,修改方式如以下说明所示。

  • <nodename>非固定值,为K8s中查询到的节点名称。
  • <nodename>.log文件物理机路径可由用户根据实际情况自行配置:在NodeD的启动YAML中修改挂载卷名称为pingmesh-result的物理机挂载路径。

获取pingmesh结果后,ClusterD会对结果进行初步分析,将故障信息写入到名为pingmesh-fault-<nodename>的ConfigMap文件中。ClusterD会侦听该ConfigMap信息,并将故障汇总后上报给Volcano,由Volcano进行调度。

前提条件

使用约束

本功能仅支持在以下产品型号中使用:Atlas 900 A3 SuperPoD 超节点Atlas 9000 A3 SuperPoD 集群算力系统

配置总线设备网络检测

启用或关闭总线设备网络检测,需执行以下步骤。

查看检测结果信息

总线设备网络检测的pingmesh结果写入文件<nodename>.log中。该文件中各字段的详细说明如下表所示。

表2 <nodename>.log

参数

说明

取值

uid

该次pingmesh任务的ID。

长度为64的字符串

config

该次pingmesh任务的用户配置。

字符串

physicID

NPU卡物理ID。

[0~15]

taskID

任务ID,0代表节点内部、1代表节点间。

0或1

DestNum

本次pingmesh目标地址数量。

[0~47]

source_addr

源地址

ipv4网络地址

target_addr

目标地址

ipv4网络地址

suc_pkt_num

发送成功的包数量。

-

fail_pkt_num

发送失败的包数量。

-

max_time

最长响应时间

  • ping失败的时候,值为-1。
  • 正常情况下为非负值。

min_time

最短响应时间

  • ping失败的时候,值为-1。
  • 正常情况下为非负值。

avg_time

平均响应时间

  • ping失败的时候,值为-1。
  • 正常情况下为非负值。

tp95_time

处于95%位置的响应时间。

  • ping失败的时候,值为-1。
  • 正常情况下为非负值。

reply_stat_num

本次查询到的响应数量。

-

ping_total_num

本次任务累计的响应数量。

-

查看故障信息

在管理节点上执行以下命令,查看总线设备网络检测的故障信息。

kubectl describe cm -n cluster-system  pingmesh-fault-<nodename>

故障信息中各字段的详细说明如下所示。

表3 pingmesh-fault-<nodename>

参数

说明

取值

mc-consumer-publicfault

ClusterD侦听所需的label key

true

PublicFault

公共故障信息key

详细说明请参见表2

已支持的总线设备网络故障

故障码

故障说明

故障级别

220001001

NPU卡HCCS网络故障

SeparateNPU

说明:

该故障级别不支持自行配置。