慢网络诊断
功能说明
支持提供参数面网络连通性检测,实时进行网络监测和异常上报,辅助故障分析和定界定位,提前预警网络故障和亚健康风险信息,保障集群网络的长期稳定运行。
当前仅支持与ClusterD和NodeD集成进行在线部署,请参见《MindCluster 集群调度用户指南》的“安装 > 安装部署”章节完成ClusterD和NodeD部署。
- 慢网络算法:对节点之间的网络拨测数据进行分析、检测,并输出网络诊断结果。
- 慢网络调度:把控探测任务启停,上报故障结果,调度慢网络整体流程。
使用示例
- 配置共享存储。
- 开启故障检测开关。
- 登录环境,进入NodeD解压目录。
- 执行以下命令创建名为pingmesh-config的ConfigMap文件。pingmesh-config.yaml为pingmesh配置文件,可从NodeD安装包中获取。
kubectl apply -f pingmesh-config.yaml
回显示例如下:
configmap/pingmesh-config created
- 执行以下命令编辑pingmesh-config文件,该文件中各参数的填写说明如下表所示。
kubectl edit cm -n cluster-system pingmesh-config
表1 pingmesh-config文件参数说明 参数
取值
说明
app
pingmesh
ConfigMap其中一个label的key。
global
-
集群配置信息。
"1"
超节点ID
超节点ID为1的配置示例,用户可根据实际情况进行修改或新增。当配置了某个超节点后,NodeD会采用超节点的配置信息而忽略global配置信息。
activate
- on:开启
- off:关闭
是否启用pingmesh功能。
task_interval
[1~60]
pingmesh任务间隔时间,单位为秒。
查看检测结果
网络检测的pingmesh结果将写入文件<nodename>.log中,该文件中各字段的详细说明如下表所示。
|
参数 |
取值范围 |
说明 |
|---|---|---|
|
uid |
长度为64的字符串。 |
本次pingmesh任务的ID。 |
|
config |
字符串 |
本次pingmesh任务的用户配置。 |
|
physicID |
[0~15] |
NPU卡物理ID。 |
|
taskID |
|
任务ID。 |
|
DestNum |
[0~47] |
本次pingmesh目标地址数量。 |
|
source_addr |
ipv4网络地址。 |
源地址。 |
|
target_addr |
ipv4网络地址。 |
目标地址。 |
|
suc_pkt_num |
- |
发送成功的包数量。 |
|
fail_pkt_num |
- |
发送失败的包数量。 |
|
max_time |
|
最长响应时间。 |
|
min_time |
|
最短响应时间。 |
|
avg_time |
|
平均响应时间。 |
|
tp95_time |
|
处于95%位置时的响应时间。 |
|
reply_stat_num |
- |
本次查询到的响应数量。 |
|
ping_total_num |
- |
本次任务累计的响应数量。 |
查看gRPC上报结果
慢网络诊断到故障,会通过gRPC上报至ClusterD的公共故障管理中心。
ConfigMap文件会显示相关信息,5秒钟之后自动清除。

已支持的慢网络故障
|
故障码 |
故障说明 |
故障级别 |
|---|---|---|
|
200001010 |
某节点中产生/恢复慢网络。 |
NotHandleFault:暂不处理故障。 |
|
200001011 |
超节点内的节点间产生/恢复慢网络。 |
NotHandleFault:暂不处理故障。 |
|
200001012 |
未收敛到卡。 |
NotHandleFault:暂不处理故障。 |



