昇腾社区首页
中文
注册

类功能

功能描述

解析Markdown,返回的标题和正文的类。

函数原型

from mx_rag.cache import MarkDownParser
MarkDownParser(file_path, max_file_num)

参数说明

参数名

数据类型

可选/必选

说明

file_path

str

必选

markdown文件所在的文件夹路径,路径长度不能超过1024。调用parse时会校验:不能为软链接和相对路径,文件夹路径下的.md文件大小不能超过10MB,.md文件数量不能超过max_file_num。

max_file_num

int

可选

最大解析的markdown文件个数,默认值为“1000”,取值范围[1, 10000]。

返回值说明

数据类型

说明

Tuple[List[str], List[str]]

返回的是Markdown解析后的titles列表和contents列表。

调用示例

from paddle.base import libpaddle
from mx_rag.cache import MarkDownParser
dir_path = "path of .md document "
parser = MarkDownParser(dir_path)
titles, contents = parser.parse()
print(titles)
print(contents)