昇腾社区首页
中文
注册

0xFC001001 Service Level Degradation Alarm

告警解释

  • 告警上报

    检测MindIE Server可用节点数减少时,上报此告警。

  • 告警恢复

    检测到MindIE Server可用节点数恢复到告警前数目时,该告警自动清除。

告警属性

告警ID

告警级别

告警类型

0xFC001001

紧急

状态改变

告警参数

描述定位信息中的参数和附加信息中的参数。

类别

参数名称

参数含义

定位信息

servicename

组件名称“Controller”

附加信息

servicename

组件名称“Controller”

mindie server ip

异常Server IP

prefill_inst/decode_inst

告警时存活Prefill实例数量和Decode实例数量

对系统的影响

MindIE nodes发生缩容,服务最大吞吐能力下降。

可能原因

  • 软件故障导致Prefill实例、Decode实例数减少。
  • 硬件故障导致Prefill实例、Decode实例数减少。

处理步骤

  1. 查看Controller日志中可用节点变更情况。
  2. 根据1排查结论获取对应Server日志进一步诊断。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。