报错信息查询
ms_coordinator启动后,运行过程中可能出现的报错信息主要如下所示。
异常类型 |
异常原因 |
异常表现 |
---|---|---|
系统异常 |
自身节点通信异常。 |
与周边组件失联,报出错误日志,级别为致命,关键日志信息如下所示:
|
进程异常退出。 |
部署平台通过健康探针,识别该异常退出,实现进程重启,业务恢复。 部署平台会将故障异常退出的节点重新拉起,如果一直拉起失败,则需要检查是否硬件故障。 |
|
集群中无可用调度节点。 |
拒绝推理服务请求,在返回的错误码中告知错误详情。 记录异常日志,级别为致命。关键日志信息如下所示:
该报错信息说明集群中可用的节点数量不足,有以下两种情况:
|
|
集群中某些节点无法通信。 |
报出错误日志,关键日志信息如下所示:
|
|
请求异常 |
请求量过大,超出限流阈值。 |
拒绝推理服务请求,关键日志信息如下所示: Too many requests 该报错信息两种解决方式如下所示:
|
请求处理超时。 |
返回通知用户请求处理超时。包含三种类型: 调度超时,首token超时和推理整体超时。关键日志信息如下所示:
|
|
推理请求处理计算失败。 |
返回通知用户请求处理失败,直接将MindIE Server的错误日志透传回用户,并删除本次请求。 如果推理请求结果正确,请忽略;如果推理不正确,说明为程序BUG,需进一步排查问题。 |