昇腾社区首页
中文
注册

类功能

功能描述

自定义的MxDocument类,用于存放文档加载解析后的数据接口。

函数原型

from mx_rag.storage.document_store import MxDocument
class MxDocument(BaseModel):
    page_content: str
    metadata: dict
    document_name: str

输入参数说明

参数名

数据类型

可选/必选

说明

page_content

str

必选

切分后的文本,长度范围[0, 16MB]。

metadata

dict

可选

元数据,比如{'source': '/home/HwHiAiUser/gaokao.txt'},字典长度不能超过1024,字典中的字符串长度不能超过1024,字典嵌套深度不能超过1。

document_name

str

必选

文件名称,长度范围[0, 1024]。

调用示例

from langchain_community.document_loaders import TextLoader
from mx_rag.storage.document_store import MxDocument
loader = TextLoader("/xxx/gaokao.txt", encoding="utf-8")
document = loader.load()[0]
mx_document = MxDocument(page_content=document.page_content, metadata=document.metadata, document_name="gaokao.txt")