lazy_load
功能描述
实现langchain基类的lazy_load方法。加载并解析xlsx/xls文件。默认表单第一行为列标题,从第二行开始为内容。逐行读取列标题与值。
- 文件必须是xlsx,xls格式中的一种,如果不是则解析失败,抛出异常。
- 文件必须存在,且文件表单数不可超过1000页,文件大小不可超过100MB,否则解析失败,返回空迭代器。
- 如果文件为xlsx格式,则允许解压前文件不超过100MB,不能为一个ZIP bomb(具体要求参考BaseLoader),否则解析失败返回空迭代器。
- 默认表单第一行为列标题,从第二行开始为内容。如果表单行数少于两行,则默认为空表。如果单个表单的行超过10000行,或者列超过1000列,则返回空表单。
函数原型
def lazy_load()
返回值说明
数据类型 |
说明 |
---|---|
Iterator[Document] |
返回langchain中Document对象迭代器。 |
父主题: ExcelLoader类