类功能

功能描述

继承实现langchain_community.document_loaders.base.BaseLoader类和mx_rag.document.loader.BaseLoader类，解析.docx文档，不支持.doc后缀文件。支持文本内容解析，传入视觉大模型对象可支持图片识别，不支持版面识别。

函数原型

from mx_rag.document.loader import DocxLoader
DocxLoader(file_path, vlm, image_inline)

参数说明

参数名	数据类型	可选/必选	说明
file_path	str	必选	Docx文件路径，路径长度取值范围为[1,1024]。文档路径不能为软链接且不允许存在".."。单个文档文字数量≤500000；文档大小≤100MB。
vlm	Img2TextLLM	可选	视觉大模型对象，可解析文档中的图片信息，具体可参见Img2TextLLM类
image_inline	bool	可选	是否ocr解析图片，默认为“False”，预留参数，当前不支持图片ocr解析。

参数名

数据类型

可选/必选

说明

file_path

str

必选

Docx文件路径，路径长度取值范围为[1,1024]。文档路径不能为软链接且不允许存在".."。

单个文档文字数量≤500000；文档大小≤100MB。

vlm

Img2TextLLM

可选

视觉大模型对象，可解析文档中的图片信息，具体可参见Img2TextLLM类

image_inline

bool

可选

是否ocr解析图片，默认为“False”，预留参数，当前不支持图片ocr解析。

调用示例

from mx_rag.document.loader import DocxLoader
from mx_rag.llm import Img2TextLLM, LLMParameterConfig
from mx_rag.utils import ClientParam

vlm = Img2TextLLM(base_url="https://{ip}:{port}/openai/v1/chat/completions",
                   model_name="Qwen2.5-VL-7B-Instruct",
                   llm_config=LLMParameterConfig(max_tokens=512),
                   client_param=ClientParam(ca_file="/path/to/ca.crt")
                   )
loader = DocxLoader("/path/to/document.docx", vlm=vlm)
docs = loader.lazy_load()
print(list(docs))

父主题： DocxLoader类