MIE05E010010
故障现象
MindIE请求推理失败:decode阶段找不到参数缓存。
故障原因
上层应用未发送prefill请求或在请求已判停后继续发送decode请求。
故障定位方法
针对故障原因的两种可能性,需要执行以下两项排查:
1. 调用Generator.generate_token方法时,是否存在某个input_metadata中包含了异常的request_id。该request_id的异常表现为第一次传入generate_token方法时is_prefill参数为False;
2. 调用Generator.generate_token方法时,是否存在某个input_metadata中包含了已结束推理的request_id。其异常表现为该request_id的上一次迭代输出包含了非0的eos标记符(0表示推理未结束)。

多卡推理场景下,若存在各卡推理出的eos标记符不一致的异常,也可能导致本故障,所以需对各个进程的input_metadata和eos标记符做排查。
父主题: MindIE LLM错误码参考