作者单位:Kuaishou Technology,outheast University,Beijing Jiaotong University
来源:arxiv
发表时间:2024.11
背景

•检索增强型生成(RAG)范式下,用户查询存在噪声和意图偏差。
•重写查询以提高检索文档的相关性,现有方法多样性和适用性不足
•研究具有不同信息量的查询如何检索不同的文档数组,提出了在不同信息级别上操作的四种重写策略,以提高基线方法的性能。
•提出了一种自适应策略选择方法
DMQR-RAG框架概述
•框架目标:
•提高文档检索和最终响应的性能,特别是在检索增强型LLMs中。
•核心思想:
•通过多样化的查询重写策略(基于不同信息水平的四种重写策略),提高检索到的相关文档的多样性和数量,从而提升整体性能。增加重写查询的数量并不总是有益的,因为它可能会引入噪声。
•自适应策略选择:
•通过轻量级提示和少量学习动态选择最适合特定查询的重写策略。根据用户查询自适应地选择合适的重写策略。
•实验验证:
•通过在学术和工业环境中的广泛实验,验证了DMQR-RAG方法的有效性。
重写策略
•一般查询重写(GQR):通用查询重写
•目的:用户生成的查询通常包含不相关的噪声和不明确的意图,消除查询中的噪声,提炼关键信息,提高检索精度。
•方法:保留所有相关信息,去除无关噪声。
•关键词重写(KWR):
•目的:提取查询中的关键词汇,尤其是名词和主语,以符合搜索引擎的偏好。
•方法:通过关键词快速定位相关文档,减轻搜索引擎的解析负担。
•伪答案重写(PAR)
•目的:利用LLMs生成伪答案,丰富原始查询,提高检索多样性。
•方法:即使伪答案在事实上不准确,也能在语义上与真实答案保持一致,帮助检索更相关的文档。
•核心内容提取(CCE):
•目的:在查询中去除多余的细节,提取最关键的信息。
•方法:丢弃无关细节,提取关键信息,减轻下游模块的负担。
自适应策略选择
策略介绍
虽然多查询重写可以增强检索多样性,对每个查询应用一组固定的策略并非最优的。动态选择适合每个特定查询的重写策略是至关重要的。
•利用轻量级提示和少量学习,动态选择适合特定查询的重写策略。
•将重写策略的描述作为上下文信息纳入LLMs的提示中,使模型能够全面理解所有可用的重写策略
•通过向llm提供示例,帮助他们为不同的困难查询选择合适的重写策略。


实验结果


使用自适应策略选择后的平均重写次数降低。
重写过少或过多(即1次重写或4次重写)会检索到的相关文档不足或噪声过大,这两种情况都不利于后续的结果。
总结与技术思想
•总结:
•提出DMQR-RAG框架,通过多样化的重写策略和自适应策略选择,提高了检索增强型LLMs的性能。
•根据信息级别开发了四种重写策略,以确保重写的查询的多样化。
•利用轻量提示和少次学习的自适应重写选择方法。
•核心思想:
•不同的查询需要使用不同的重写方法。
•应用提示工程动态地为不同的查询选择不同的重写方法组合。