昇腾社区首页
中文
注册

总体说明

由于一般的embedding模型是在通用的数据集上进行训练的,导致在一些用户的特殊应用领域上存在精度不足进而导致检索增强效果较差的现象,为了解决这一问题,提供了可以帮助用户在相应特殊领域上快速方便的进行embedding模型微调的方法。该方法主要包括评估数据辅助生成、模型评估、微调合成数据自动生成、模型微调这几个部分。

  • 评估数据辅助生成方法:根据用户提供的可以代表相应领域的典型文本,通过LLM辅助生成一些问答对,再通过人工筛选从中挑选一些具备较多该领域词汇的问答对,从而能较好的评估embedding模型在该领域的精度。
  • 模型评估:基于sentence-transformers框架提供的评估方法,使用辅助生成并经过人工筛选后的评估数据集,对embedding模型精度进行评估,包括召回率等指标。
  • 微调合成数据自动生成:根据用户提供相应领域的原始文本集,通过LLM自动生成微调合成数据集,再经过多种自动筛选方式挑选出最适合该领域的微调数据。
  • 模型微调:基于sentence-transformers框架提供的模型微调方法,使用自动生成并筛选后的微调合成数据,对embedding模型进行微调并输出修改后的模型。

用户在使用embedding模型微调方法时,可以参考如下流程: