昇腾社区首页
中文
注册

错误类型及解决方法

以下内容主要描述错误类型(即错误码中第5-6位)的解决方法,详情请参见表1

表1 错误类型及解决方法

错误类型

原因

解决方法

01:权限错误

通常是文件权限或属组不正确。

根据日志提示内容,检查对应文件的权限和属组。

02:子进程异常

子进程内部错误,可能与共享内存大小等有关。

检查容器内共享内存大小,结合报错提示排查。

03:推理服务拉起异常

Server拉起服务失败。

结合报错信息,排查端口占用、https服务是否开启与证书配置、NPU卡配置等。

04:参数解析异常

配置参数错误等,导致解析失败。

根据报错信息,检查配置文件和命令行输入等获取修改信息。

05:推理请求生成异常

Server未成功将接收到的数据转换成模型推理所需的请求体。

检查输入数据是否使用了重复ID等,也可能是系统申请内存等失败。

06:状态告警

Server调用其他组件接口返回的状态码不为成功,但不影响程序运行。

不影响程序运行,无须处理。

07:校验失败

输入参数不符合规定,例如输入超过允许长度的序列等。

根据报错信息进行修复。

08:组件调用异常

Server调用其他组件接口异常。

根据报错信息,查看其他组件的日志进行分析排查。

09:库调用异常

调用系统库函数时报错,如分配内存失败等。

根据报错信息进行定位,检查系统资源情况,查看操作系统版本是否符合要求,如果自己编译,检查编译器版本。

0A:Tensor添加/获取异常

Server需要将数据封装成MindIE LLM能处理的Tensor进行处理。

与Tensor的生成有关,一般为系统错误或软件bug,联系开发人员进行处理。

0B:Encode/Decode异常

Tokenizer等编码或解码异常。

检查Tokenizer配置路径是否正确且完整。

0C:请求响应处理异常

处理响应时报错。

响应一般在回调函数中进行处理,遇到报错联系开发人员进行处理。

0D:请求响应生成异常

将模型推理结果转换成http请求时报错。

响应一般在回调函数中进行处理,遇到报错联系开发人员进行处理。

0E:JSON解析异常

解析传输的JSON时发生异常。

通常是JSON中缺失需要的字段,根据报错提示进行排查。

0F:超时告警

执行推理请求超时产生的告警信息。

检查配置文件或命令行参数中的超时时间配置。

10:空响应告警

Server收到模型侧的推理结果为空。

检查MindIE LLM的日志信息,逐步排查。

11:Pull KV告警

获取或推送KV Cache信息失败。

KV Cache涉及多个组件,报错时应结合多个组件日志进行排查。

12:重计算告警

重计算相关处理失败。

Server内部重计算报错。

13:安全相关异常

证书检查等失败。

检查https或grpc的证书配置,根据日志信息排查证书有效性。

14:异常传递

由于其他模块产生异常,导致当前程序无法继续执行。

根据日志信息,排查异常根因。

15:校验告警

校验失败,但不影响程序运行。

根据日志信息,查看告警信息。

16:未知错误

未识别的报错原因。

根据日志进行分析,联系开发人员解决。

17:下载异常

通常为多模态数据中传入URL等信息时下载失败。

检查Server是否能访问传入的URL。

18:删除异常

删除缓存文件时报错。

缓存文件为Server运行时产生,发生报错可能为软件bug或操作系统偶发错误。

19:等待子进程告警

Server中Tokenizer为子进程,创建Tokenizer子进程失败。

服务初始化过程中会创建Tokenizer子进程,尝试重启服务。

1A:子进程退出告警

子进程退出时产生的告警。

IBIS子进程或Tokenizer子进程收到退出信号时产生的告警。

1B:配置错误

配置文件等发生错误。

根据报错信息,检查文件配置。

1C:初始化异常

Server或其子组件服务初始化异常。

根据报错信息,分析初始化报错的原因。

1D:服务停止异常

Server服务化停止异常。

根据报错信息,分析停止异常原因。

1E:子节点异常

Slave节点异常。

根据报错信息,分析子节点异常原因。