构建知识库
操作步骤
- 编译检索算子,以实现检索功能。
cd $MX_INDEX_INSTALL_PATH/tools/ && python3 aicpu_generate_model.py -t <chip_type> && python3 flat_generate_model.py -d <dim> -t <chip_type> && cp op_models/* $MX_INDEX_MODELPATH
- MX_INDEX_INSTALL_PATH、MX_INDEX_MODELPATH变量已在~/.bashrc中配置,无需单独配置。具体配置值请查看~/.bashrc。
- -d <dim>表示embedding模型向量化后的维度,因acge_text_embedding嵌入模型向量维度为1024,这里设置为-d 1024。
- -t <chip_type>表示芯片类型。对于Atlas 300I Duo 推理卡,可在安装昇腾AI处理器的服务器执行npu-smi info命令进行查询,将查询到的“Name”最后一位数字删掉,即是<chip_type>的取值。对于Atlas 800I A2 推理服务器,可在安装昇腾AI处理器的服务器执行npu-smi info命令进行查询,取“Name”对应的字段。
- 创建领域知识文档。
在/home/HwHiAiUser目录下创建文档gaokao.txt,编码格式为utf-8,内容如下:
2024年高考语文作文试题 新课标I卷 阅读下面的材料,根据要求写作。(60分) 随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少? 以上材料引发了你怎样的联想和思考?请写一篇文章。 要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
所选大模型训练截止日在2024年以前,模型本身未学习“2024年高考语文作文试题”相关知识。
- 构建领域知识库。
- 运行程序获取结果。样例代码能打印出上传的文件名列表,则表示构建知识库成功。
[‘gaokao.txt’]
父主题: FlatL2检索方式