昇腾社区首页
中文
注册

类功能

功能描述

继承实现langchain_community.document_loaders.base.BaseLoader,解析.docx文档,不支持.doc后缀文件。当前只支持纯文本内容解析,不支持图片以及版面识别。

函数原型

from mx_rag.document.loader import DocxLoader
DocxLoader(file_path, image_inline)

参数说明

参数名

数据类型

可选/必选

说明

file_path

str

必选

Docx文件路径,路径长度取值范围为[1,1024]。文档路径不能为软链接且不允许存在".."。

单个文档文字数量≤500000;文档大小≤100MB。

image_inline

bool

可选

是否解析图片,默认为“False”,预留参数,当前不支持图片解析。

调用示例

from mx_rag.document.loader import DocxLoader
loader = DocxLoader("/path/to/document.docx")
docs = loader.lazy_load()
print(list(docs))