类功能
功能描述
解析Markdown,返回的标题和正文的类。
函数原型
from mx_rag.cache import MarkDownParser MarkDownParser(file_path, max_file_num)
参数说明
参数名 |
数据类型 |
可选/必选 |
说明 |
---|---|---|---|
file_path |
str |
必选 |
markdown文件所在的文件夹路径,路径长度不能超过1024。调用parse时会校验:不能为软链接和相对路径,文件夹路径下的.md文件大小不能超过10MB,.md文件数量不能超过max_file_num。 |
max_file_num |
int |
可选 |
最大解析的markdown文件个数,默认值为“1000”,取值范围[1, 10000]。 |
返回值说明
数据类型 |
说明 |
---|---|
Tuple[List[str], List[str]] |
返回的是Markdown解析后的titles列表和contents列表。 |
调用示例
from paddle.base import libpaddle from mx_rag.cache import MarkDownParser dir_path = "path of .md document " parser = MarkDownParser(dir_path) titles, contents = parser.parse() print(titles) print(contents)
父主题: 类MarkDownParser