类功能
功能描述
继承实现langchain_community.document_loaders.base.BaseLoader,解析.docx文档,不支持.doc后缀文件。当前只支持纯文本内容解析,不支持图片以及版面识别。
函数原型
from mx_rag.document.loader import DocxLoader DocxLoader(file_path, image_inline)
参数说明
参数名 |
数据类型 |
可选/必选 |
说明 |
---|---|---|---|
file_path |
str |
必选 |
Docx文件路径,路径长度取值范围为[1,1024]。文档路径不能为软链接且不允许存在".."。 单个文档文字数量≤500000;文档大小≤100MB。 |
image_inline |
bool |
可选 |
是否解析图片,默认为“False”,预留参数,当前不支持图片解析。 |
调用示例
from mx_rag.document.loader import DocxLoader loader = DocxLoader("/path/to/document.docx") docs = loader.lazy_load() print(list(docs))
父主题: DocxLoader类