昇腾社区首页
中文
注册

总体说明

样例介绍

本章节介绍基于Atlas 800I A2 推理服务器,使用RAG SDK Python接口开发基于知识库的问答系统。RAG SDK运行框架如图1所示,其运行步骤分为“构建知识库”和“检索问答”。

本样例是一个文生文场景,检索方法为距离检索“FLAT:L2”方法,其中框架图中每个步骤的“[xxx]”表示可选的方法类。推理大模型使用Llama3-8B-Chinese-Chat,embedding模型使用模型acge_text_embedding,reranker(可选)模型使用bge-reranker-large。

图1 基于知识库的问答流程

前提条件

  • 已经在MindIE容器中下载和运行Llama3-8B-Chinese-Chat大模型,模型下载链接:链接
  • 已经基于《MindIE安装指南》中的“方式三:容器部署方式”章节完成在宿主机上的容器化部署,并参考《MindIE Motor开发指南》中的“快速开始 > 启动服务”章节启动服务。
  • 已经完成安装RAG SDK
  • 已经下载嵌入模型“acge_text_embedding”和reranker模型“bge-reranker-large”,并放在2.a中运行容器时配置的模型存放目录下。模型下载链接:
    • acge_text_embedding模型:链接
    • bge-reranker-large模型:链接

TEI服务化说明

Embedding模型和Reranker模型可以支持服务化运行,如果选择TEI服务化方式,请完成Embedding服务运行和Reranker服务运行,请参见链接