昇腾社区首页
中文
注册

类功能

功能描述

继承实现langchain_community.document_loaders.base.BaseLoader,只支持.pptx格式文档解析功能,可解析文档中的图片内的文字信息和文档中的表格内的文字信息(最多支持单个100*50大小的表格)。PowerPointLoader进行初始化时需要联网下载OCR模型,需保持网络通畅。使用第三方PaddleOCR,识别精确度依赖第三方OCR模型。

函数原型

from mx_rag.document.loader import PowerPointLoader
PowerPointLoader(file_path, lang, enable_ocr)
# 参数枚举值
from mx_rag.utils.common import Lang
class Lang(Enum):
    EN: str = 'en'
    CH: str = 'ch'

参数说明

参数名

类型

可选/必选

说明

file_path

str

必选

pptx文档路径,路径长度取值范围为[1,1024],不能为软链接且不允许存在".."。文档不大于100MB。

lang

Lang

可选

进行图片OCR时,要识别图片中文字的语言类型,当前支持中文或英文(Lang.CH/Lang.EN),默认为Lang.CH。

enable_ocr

bool

可选

是否调用OCR进行图片解析,默认为False,即不解析图片。对于像素超过4096*4096的图片OCR将不进行解析。

说明:

当enable_ocr设置为“True”时,PaddleOCR会联网下载文件,本接口内部使用了pickle模块加载模型,可能存在恶意构造的文件在反序列化时带来安全风险,请确保加载的模型文件来自可信来源。

调用示例

from mx_rag.document.loader import PowerPointLoader
loader = PowerPointLoader("./test.pptx")
docs = loader.lazy_load()
print(list(docs))