similarity cache
Similarity cache是语义相似匹配的cache,存储结构是sqlite + 向量数据库(faiss, npu_faiss,milvus)。
查询时首先对用户的问题做embedding,从向量数据库查询相似TOPK的结果,然后从sqlite获取缓存答案和问题,再将缓存的问题和用户的问题进行reranker精排,得到最相似的结果返回给用户。该cache不需要满足完全匹配,只需要语义相似即可命中。
图1 similarity cache结构

父主题: 缓存类型