similarity cache

Similarity cache是语义相似匹配的cache，存储结构是sqlite + 向量数据库（faiss, npu_faiss,milvus）。

查询时首先对用户的问题做embedding，从向量数据库查询相似TOPK的结果，然后从sqlite获取缓存答案和问题，再将缓存的问题和用户的问题进行reranker精排，得到最相似的结果返回给用户。该cache不需要满足完全匹配，只需要语义相似即可命中。

图1 similarity cache结构

父主题： 缓存类型