总体说明

样例介绍

本章节介绍基于Atlas 800I A2 推理服务器，使用RAG SDK Python接口开发基于知识库的问答系统。RAG SDK运行框架如图1所示，其运行步骤分为“构建知识库”和“检索问答”。

本样例是一个文生文场景，检索方法为距离检索“FLAT:L2”方法，其中框架图中每个步骤的“[xxx]”表示可选的方法类。推理大模型使用Llama3-8B-Chinese-Chat，embedding模型使用模型acge_text_embedding，reranker（可选）模型使用bge-reranker-large。

图1 基于知识库的问答流程

前提条件

已经在MindIE容器中下载和运行Llama3-8B-Chinese-Chat大模型，模型下载链接：链接。
已经基于《MindIE安装指南》中的“方式三：容器部署方式”章节完成在宿主机上的容器化部署，并参考《MindIE Motor开发指南》中的“快速开始 > 启动服务”章节启动服务。
已经完成安装RAG SDK。
已经下载嵌入模型“acge_text_embedding”和reranker模型“bge-reranker-large”，并放在2.a中运行容器时配置的模型存放目录下。模型下载链接：
- acge_text_embedding模型：链接
- bge-reranker-large模型：链接

TEI服务化说明

Embedding模型和Reranker模型可以支持服务化运行，如果选择TEI服务化方式，请完成Embedding服务运行和Reranker服务运行，请参见链接。

父主题： FlatL2检索方式