纯模型推理时,报错出现“out of memory, need block”,具体报错信息示例如下图:
通常是由于大图片或者视频导致的序列增长,导致预分配的kv cache不够用。
在“run_pa.sh”脚本中修改“max_input_length”,根据实际应用场景,设置一个更大的值。