昇腾社区首页
中文
注册

构建知识库

操作步骤

  1. 编译检索算子,以实现检索功能。
    cd $MX_INDEX_INSTALL_PATH/tools/ && python3 aicpu_generate_model.py -t <chip_type> && python3 flat_generate_model.py -d <dim> -t <chip_type>  && cp op_models/* $MX_INDEX_MODELPATH 
    • MX_INDEX_INSTALL_PATH、MX_INDEX_MODELPATH变量已在~/.bashrc中配置,无需单独配置。具体配置值请查看~/.bashrc。
    • -d <dim>表示embedding模型向量化后的维度,因acge_text_embedding嵌入模型向量维度为1024,这里设置为-d 1024。
    • -t <chip_type>表示芯片类型。对于Atlas 300I Duo 推理卡,可在安装昇腾AI处理器的服务器执行npu-smi info命令进行查询,将查询到的“Name”最后一位数字删掉,即是<chip_type>的取值。对于Atlas 800I A2 推理服务器,可在安装昇腾AI处理器的服务器执行npu-smi info命令进行查询,取“Name”对应的字段。
  2. 创建领域知识文档。

    在/home/HwHiAiUser目录下创建文档gaokao.txt,编码格式为utf-8,内容如下:

    2024年高考语文作文试题
    新课标I卷
    阅读下面的材料,根据要求写作。(60分)
    随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?
    以上材料引发了你怎样的联想和思考?请写一篇文章。
    要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

    所选大模型训练截止日在2024年以前,模型本身未学习“2024年高考语文作文试题”相关知识。

  3. 构建领域知识库。

    参考并运行Demo中rag_demo_knowledge.py样例代码,请根据实际情况修改代码中的文件路径、模型路径等默认参数,详细参数设置请参见readme.md文件。

    python3 rag_demo_knowledge.py --file_path "/path/to/gaokao.txt"
  4. 运行程序获取结果。
    样例代码能打印出上传的文件名列表,则表示构建知识库成功。
    [‘gaokao.txt’]