昇腾社区首页
中文
注册

generate_evaluate_data

功能描述

对文本列表中的每个文本生成一定数量的问题,最终生成该领域的初步评估数据集,用于下一步的人工筛选。

函数原型

def generate_evaluate_data(split_doc_list: list[str], generate_qd_prompt: str , question_number: int, batch_size: int)

输入参数说明

参数名

数据类型

是否必选

说明

split_doc_list

list[str]

必选

原始文本列表, 列表长度范围[1, 1000*1000], 字符串长度范围[1, 128*1024*1024]

generate_qd_prompt

str

可选

生成评估数据集的prompt,用户可根据领域特点进行修改, 长度取值范围(0, 1*1024*1024],默认值为GENERATE_QD_PROMPT

question_number

int

可选

每个原始文本切片对应生成的问题数,该数量越大,生成的问题角度越全面,有利于微调效果,但是耗时较长,默认值为3, 取值范围(0, 20]

batch_size

int

可选

评估数据生成时并发条数,默认值为8,取值范围(0, 1024]

GENERATE_QD_PROMPT定义如下:

GENERATE_QD_PROMPT = """阅读文章,生成一个相关的问题,例如:
文章:气候变化对海洋生态系统造成了严重的影响,其中包括海洋温度上升、海平面上升、酸化等问题。这些变化对海洋生物种群分布、生态圈的稳定性以及渔业等方面都产生了深远影响。在全球变暖的背景下,保护海洋生态系统已经成为当务之急。 
问题:气候变化对海洋生态系统的影响主要体现在哪些方面?
文章:零售业是人工智能应用的另一个重要领域。通过数据分析和机器学习算法,零售商可以更好地了解消费者的购买行为、趋势和偏好。人工智能技术可以帮助零售商优化库存管理、推荐系统、市场营销等方面的工作,提高销售额和客户满意度。
问题:人工智能是如何帮助零售商改善客户体验和销售业绩的?
请仿照样例对以下文章提{question_number}个相关问题:

文章:{doc}

输出格式为以下,按照问题1,问题2...进行编号,冒号后面不要再出现数字编号:
问题1:...
...

""":