昇腾社区首页
中文
注册

错误码

错误码是通过如下宏定义的。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
namespace llm_datadist {
constexpr Status LLM_SUCCESS = 0x0U;
constexpr Status LLM_FAILED = 0xFFFFFFFFU;
constexpr Status LLM_WAIT_PROC_TIMEOUT = 0x5010B001U;
constexpr Status LLM_KV_CACHE_NOT_EXIST = 0x5010B002U;
constexpr Status LLM_PARAM_INVALID = 0x5010B005U;
constexpr Status LLM_NOT_YET_LINK = 0x5010B007U;
constexpr Status LLM_ALREADY_LINK = 0x5010B008U;
constexpr Status LLM_LINK_FAILED = 0x5010B009U;
constexpr Status LLM_UNLINK_FAILED = 0x5010B00AU;
constexpr Status LLM_NOTIFY_PROMPT_UNLINK_FAILED = 0x5010B00BU;
constexpr Status LLM_CLUSTER_NUM_EXCEED_LIMIT = 0x5010B00CU;
constexpr Status LLM_PROCESSING_LINK = 0x5010B00DU;
constexpr Status LLM_DEVICE_OUT_OF_MEMORY = 0x5010B00EU;
constexpr Status LLM_EXIST_LINK = 0x5010B018U;
constexpr Status LLM_FEATURE_NOT_ENABLED = 0x5010B019U;
constexpr Status LLM_TIMEOUT = 0x5010B01AU;
constexpr Status LLM_LINK_BUSY = 0x5010B01BU;
constexpr Status LLM_OUT_OF_MEMORY = 0x5010B01CU;
}  // namespace llm_datadist

具体错误码含义如下。

枚举值

含义

是否可恢复

解决办法

LLM_SUCCESS

成功

LLM_FAILED

通用失败

保留现场,获取host/device日志,并备份。

LLM_WAIT_PROC_TIMEOUT

处理超时

  • 如果是PullKvCachePullKvBlocks等传输相关接口报该错误,该链路不可恢复,需重新建链。
  • 其他接口报该异常,加大超时时间并重试。

LLM_KV_CACHE_NOT_EXIST

KV不存在

  • 检查cache_id是否正确。
  • 检查是否Cache已经释放。
  • 检查对应全量侧报错日志中的请求是否完成。
  • 检查是否存在重复拉取。

LLM_PARAM_INVALID

参数错误

基于日志排查错误原因。

LLM_NOT_YET_LINK

没有建链

上层排查Decode与Prompt建链情况。

LLM_ALREADY_LINK

已经建链

上层排查Decode与Prompt建链情况。

LLM_LINK_FAILED

建链失败

LinkLlmClusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。

LLM_UNLINK_FAILED

断链失败

UnlinkLlmClusters第二个返回值中有该错误码时,需要检查对应集群之间的网络连接。

LLM_NOTIFY_PROMPT_UNLINK_FAILED

通知Prompt侧断链失败

  1. 排查Decode与Prompt之间的网络连接。
  2. 主动调Prompt侧的UnlinkLlmClusters接口清理残留资源。

LLM_CLUSTER_NUM_EXCEED_LIMIT

集群数量超过限制

检查LinkLlmClustersUnlinkLlmClusters传入参数,clusters数量不能超过16。

LLM_PROCESSING_LINK

正在处理建链

当前正在执行建链或断链操作,请稍后再试。

LLM_DEVICE_OUT_OF_MEMORY

device内存不足

检查申请的内存是否没有释放。

LLM_EXIST_LINK

设置角色时,存在未释放的链接

检查在SetRole前是否已经调用UnlinkLlmClusters断开所有的链接。

LLM_FEATURE_NOT_ENABLED

特性未使能

检查初始化LLM-DataDist时是否传入了必要option。

如果是SetRole时抛出该异常,排查初始化时是否设置了OPTION_ENABLE_SET_ROLE = "1"

LLM_TIMEOUT

处理超时

保留现场,获取host/device日志,并备份。

LLM_LINK_BUSY

链路忙

预留错误码,暂不会返回。

LLM_OUT_OF_MEMORY

内存不足

检查内存池或系统内存是否充足。