0xFC001006 MindCluster Connection Exception Alarm
告警解释
告警属性
告警ID |
告警级别 |
告警类型 |
|---|---|---|
0xFC001006 |
紧急 |
状态改变 |
告警参数
描述定位信息中的参数和附加信息中的参数
类别 |
参数名称 |
参数含义 |
|---|---|---|
定位信息 |
service name |
组件名称“Controller” |
service ip |
组件“Controller”IP |
|
附加信息 |
Service name |
组件名称“Controller” |
service ip |
组件“Controller”IP |
|
cluster ip |
组件“MindCluster”IP |
|
pod id |
模型ID |
对系统的影响
Controller和MindCluster之间gRPC长连接中断时,Controller与MindCluster之间的数据传输中断,Controller无法从MindCluster获取所需数据,可能导致业务操作无法继续进行。
可能原因
- 集群服务连接失败。
- 订阅RankTable失败。
- 订阅故障消息失败。
- 连接中断。
处理步骤
- 确保Controller与MindCluster之间的网络连接正常。可以尝试使用ping命令或检查路由设置来确认网络可达性。
- 验证MindCluster的IP和端口配置是否正确。
- 确保MindCluster组件正常运行并且没有故障。
告警清除
- 当Controller和MindCluster之间的gRPC长链接恢复时,链接中断告警和订阅服务失败告警将被自动消除。
- 如果是一开始建立链接失败上传的告警不会自动恢复,需要检查各项配置后重新启动服务。
父主题: 告警参考