昇腾社区首页
中文
注册
开发者
下载

慢网络诊断

功能说明

支持提供参数面网络连通性检测,实时进行网络监测和异常上报,辅助故障分析和定界定位,提前预警网络故障和亚健康风险信息,保障集群网络的长期稳定运行。

当前仅支持与ClusterDNodeD集成进行在线部署,请参见《MindCluster 集群调度用户指南》的“安装 > 安装部署”章节完成ClusterDNodeD部署。

  • 慢网络算法:对节点之间的网络拨测数据进行分析、检测,并输出网络诊断结果。
  • 慢网络调度:把控探测任务启停,上报故障结果,调度慢网络整体流程。

使用示例

  1. 配置共享存储。
    ClusterDNodeD通过共享存储进行交互,两者的共享存储根路径需要保持一致。共享目录的根路径属主为9000用户,与ClusterD运行用户一致。
    1. 配置server。

    2. 修改NodeD配置。

    3. 修改ClusterD配置。

    4. 执行kubectl get pods -o -wide -A命令出现如下示例,则表示已完成共享存储配置。

  2. 开启故障检测开关。
    1. 登录环境,进入NodeD解压目录。
    2. 执行以下命令创建名为pingmesh-config的ConfigMap文件。pingmesh-config.yaml为pingmesh配置文件,可从NodeD安装包中获取。
      kubectl apply -f pingmesh-config.yaml

      回显示例如下:

      configmap/pingmesh-config created
    3. 执行以下命令编辑pingmesh-config文件,该文件中各参数的填写说明如下表所示。
      kubectl edit cm -n cluster-system   pingmesh-config
      表1 pingmesh-config文件参数说明

      参数

      取值

      说明

      app

      pingmesh

      ConfigMap其中一个label的key。

      global

      -

      集群配置信息。

      "1"

      超节点ID

      超节点ID为1的配置示例,用户可根据实际情况进行修改或新增。当配置了某个超节点后,NodeD会采用超节点的配置信息而忽略global配置信息。

      activate

      • on:开启
      • off:关闭

      是否启用pingmesh功能。

      task_interval

      [1~60]

      pingmesh任务间隔时间,单位为秒。

查看检测结果

网络检测的pingmesh结果将写入文件<nodename>.log中,该文件中各字段的详细说明如下表所示。

表2 <nodename>.log文件参数说明

参数

取值范围

说明

uid

长度为64的字符串。

本次pingmesh任务的ID。

config

字符串

本次pingmesh任务的用户配置。

physicID

[0~15]

NPU卡物理ID。

taskID

  • 节点内部的任务:0
  • 节点间的任务:1

任务ID。

DestNum

[0~47]

本次pingmesh目标地址数量。

source_addr

ipv4网络地址。

源地址。

target_addr

ipv4网络地址。

目标地址。

suc_pkt_num

-

发送成功的包数量。

fail_pkt_num

-

发送失败的包数量。

max_time

  • 正常情况:非负值
  • ping失败:-1

最长响应时间。

min_time

  • 正常情况:非负值
  • ping失败:-1

最短响应时间。

avg_time

  • 正常情况:非负值
  • ping失败:-1

平均响应时间。

tp95_time

  • 正常情况:非负值
  • ping失败:-1

处于95%位置时的响应时间。

reply_stat_num

-

本次查询到的响应数量。

ping_total_num

-

本次任务累计的响应数量。

查看gRPC上报结果

慢网络诊断到故障,会通过gRPC上报至ClusterD的公共故障管理中心。

ConfigMap文件会显示相关信息,5秒钟之后自动清除。

已支持的慢网络故障

故障码

故障说明

故障级别

200001010

某节点中产生/恢复慢网络。

NotHandleFault:暂不处理故障。

200001011

超节点内的节点间产生/恢复慢网络。

NotHandleFault:暂不处理故障。

200001012

未收敛到卡。

NotHandleFault:暂不处理故障。