总体说明
MxRAGCache的功能主要是基于开源组件GPTCache进行二次开发,支持以下cache基本功能:
- Cache初始化
- Cache更新
- Cache老化
- Cache查询
- Cache级联
相比GPTCache,MxRAGCache扩展了以下功能:
- 语义近似Cache矢量检索过程支持FAISS_NPU检索(Index SDK)。
- 语义近似Cache embedding支持RAG优化的TEI Embedding。
- 语义近似Cache相似度计算过程支持RAG优化的TEI Reranker。
- 支持RAG SDK chain(图生图,文生文,文生图)的Cache功能。
在原始RAG SDK流程中,在知识文档检索前,增加问答Cache,如果查询命中了Cache,就不会经过大模型推理过程,节省了知识文档检索和大模型推理时延,提升了端到端性能,经过性能测试,缓存命中相比缓存未命中可以提升50倍性能。
父主题: 缓存模块