纯模型推理时出现“out of memory, need block”报错 问题现象描述纯模型推理时,报错出现“out of memory, need block”,具体报错信息示例如下图: 原因分析通常是由于大图片或者视频导致的序列增长,导致预分配的kv cache不够用。 解决措施在“run_pa.sh”脚本中修改“max_input_length”,根据实际应用场景,设置一个更大的值。 父主题: FAQ