错误类型及解决方法
以下内容主要描述错误类型(即错误码中第5-6位)的解决方法,详情请参见表1。
错误类型 |
原因 |
解决方法 |
---|---|---|
01:权限错误 |
通常是文件权限或属组不正确。 |
根据日志提示内容,检查对应文件的权限和属组。 |
02:子进程异常 |
子进程内部错误,可能与共享内存大小等有关。 |
检查容器内共享内存大小,结合报错提示排查。 |
03:推理服务拉起异常 |
Server拉起服务失败。 |
结合报错信息,排查端口占用、https服务是否开启与证书配置、NPU卡配置等。 |
04:参数解析异常 |
配置参数错误等,导致解析失败。 |
根据报错信息,检查配置文件和命令行输入等获取修改信息。 |
05:推理请求生成异常 |
Server未成功将接收到的数据转换成模型推理所需的请求体。 |
检查输入数据是否使用了重复ID等,也可能是系统申请内存等失败。 |
06:状态告警 |
Server调用其他组件接口返回的状态码不为成功,但不影响程序运行。 |
不影响程序运行,无须处理。 |
07:校验失败 |
输入参数不符合规定,例如输入超过允许长度的序列等。 |
根据报错信息进行修复。 |
08:组件调用异常 |
Server调用其他组件接口异常。 |
根据报错信息,查看其他组件的日志进行分析排查。 |
09:库调用异常 |
调用系统库函数时报错,如分配内存失败等。 |
根据报错信息进行定位,检查系统资源情况,查看操作系统版本是否符合要求,如果自己编译,检查编译器版本。 |
0A:Tensor添加/获取异常 |
Server需要将数据封装成MindIE LLM能处理的Tensor进行处理。 |
与Tensor的生成有关,一般为系统错误或软件bug,联系开发人员进行处理。 |
0B:Encode/Decode异常 |
Tokenizer等编码或解码异常。 |
检查Tokenizer配置路径是否正确且完整。 |
0C:请求响应处理异常 |
处理响应时报错。 |
响应一般在回调函数中进行处理,遇到报错联系开发人员进行处理。 |
0D:请求响应生成异常 |
将模型推理结果转换成http请求时报错。 |
响应一般在回调函数中进行处理,遇到报错联系开发人员进行处理。 |
0E:JSON解析异常 |
解析传输的JSON时发生异常。 |
通常是JSON中缺失需要的字段,根据报错提示进行排查。 |
0F:超时告警 |
执行推理请求超时产生的告警信息。 |
检查配置文件或命令行参数中的超时时间配置。 |
10:空响应告警 |
Server收到模型侧的推理结果为空。 |
检查MindIE LLM的日志信息,逐步排查。 |
11:Pull KV告警 |
获取或推送KV Cache信息失败。 |
KV Cache涉及多个组件,报错时应结合多个组件日志进行排查。 |
12:重计算告警 |
重计算相关处理失败。 |
Server内部重计算报错。 |
13:安全相关异常 |
证书检查等失败。 |
检查https或grpc的证书配置,根据日志信息排查证书有效性。 |
14:异常传递 |
由于其他模块产生异常,导致当前程序无法继续执行。 |
根据日志信息,排查异常根因。 |
15:校验告警 |
校验失败,但不影响程序运行。 |
根据日志信息,查看告警信息。 |
16:未知错误 |
未识别的报错原因。 |
根据日志进行分析,联系开发人员解决。 |
17:下载异常 |
通常为多模态数据中传入URL等信息时下载失败。 |
检查Server是否能访问传入的URL。 |
18:删除异常 |
删除缓存文件时报错。 |
缓存文件为Server运行时产生,发生报错可能为软件bug或操作系统偶发错误。 |
19:等待子进程告警 |
Server中Tokenizer为子进程,创建Tokenizer子进程失败。 |
服务初始化过程中会创建Tokenizer子进程,尝试重启服务。 |
1A:子进程退出告警 |
子进程退出时产生的告警。 |
IBIS子进程或Tokenizer子进程收到退出信号时产生的告警。 |
1B:配置错误 |
配置文件等发生错误。 |
根据报错信息,检查文件配置。 |
1C:初始化异常 |
Server或其子组件服务初始化异常。 |
根据报错信息,分析初始化报错的原因。 |
1D:服务停止异常 |
Server服务化停止异常。 |
根据报错信息,分析停止异常原因。 |
1E:子节点异常 |
Slave节点异常。 |
根据报错信息,分析子节点异常原因。 |