昇腾社区首页
中文
注册
开发者
下载

0xFC001006 MindCluster Connection Exception Alarm

告警解释

  • 告警上报

    当Controller检测到和MindCluster之间的gRPC长连接建立连接失败、中断或者订阅服务失败时,上报此告警。

  • 告警恢复

    当Controller检测到gRPC长连接或订阅服务恢复时,上报该告警消除。

告警属性

告警ID

告警级别

告警类型

0xFC001006

紧急

状态改变

告警参数

描述定位信息中的参数和附加信息中的参数

类别

参数名称

参数含义

定位信息

service name

组件名称“Controller”

service ip

组件“Controller”IP

附加信息

Service name

组件名称“Controller”

service ip

组件“Controller”IP

cluster ip

组件“MindCluster”IP

pod id

模型ID

对系统的影响

Controller和MindCluster之间gRPC长连接中断时,Controller与MindCluster之间的数据传输中断,Controller无法从MindCluster获取所需数据,可能导致业务操作无法继续进行。

可能原因

  • 集群服务连接失败。
  • 订阅RankTable失败。
  • 订阅故障消息失败。
  • 连接中断。

处理步骤

  • 确保Controller与MindCluster之间的网络连接正常。可以尝试使用ping命令或检查路由设置来确认网络可达性。
  • 验证MindCluster的IP和端口配置是否正确。
  • 确保MindCluster组件正常运行并且没有故障。

告警清除

  • 当Controller和MindCluster之间的gRPC长链接恢复时,链接中断告警和订阅服务失败告警将被自动消除。
  • 如果是一开始建立链接失败上传的告警不会自动恢复,需要检查各项配置后重新启动服务。