类功能
功能描述
自定义的MxDocument类,用于存放文档加载解析后的数据接口。
函数原型
from mx_rag.storage.document_store import MxDocument
class MxDocument(BaseModel):
page_content: str
metadata: dict
document_name: str
输入参数说明
参数名 |
数据类型 |
可选/必选 |
说明 |
|---|---|---|---|
page_content |
str |
必选 |
切分后的文本,长度范围[0, 16MB]。 |
metadata |
dict |
可选 |
元数据,比如{'source': '/home/HwHiAiUser/gaokao.txt'},字典长度不能超过1024,字典中的字符串长度不能超过1024,字典嵌套深度不能超过1。 |
document_name |
str |
必选 |
文件名称,长度范围[0, 1024]。 |
调用示例
from langchain_community.document_loaders import TextLoader
from mx_rag.storage.document_store import MxDocument
loader = TextLoader("/xxx/gaokao.txt", encoding="utf-8")
document = loader.load()[0]
mx_document = MxDocument(page_content=document.page_content, metadata=document.metadata, document_name="gaokao.txt")
父主题: MxDocument类