202412论文研读-DMQR-RAG: DIVERSE MULTI-QUERY REWRITING IN RETRIEVAL-AUGMENTED GENERATION

作者单位:Kuaishou Technology,outheast University,Beijing Jiaotong University

来源:arxiv

发表时间:2024.11

背景

•检索增强型生成(RAG)范式下,用户查询存在噪声和意图偏差。

•重写查询以提高检索文档的相关性,现有方法多样性和适用性不足

•研究具有不同信息量的查询如何检索不同的文档数组,提出了在不同信息级别上操作的四种重写策略,以提高基线方法的性能。

•提出了一种自适应策略选择方法

DMQR-RAG框架概述

框架目标

•提高文档检索和最终响应的性能,特别是在检索增强型LLMs中。

核心思想

•通过多样化的查询重写策略(基于不同信息水平的四种重写策略),提高检索到的相关文档的多样性和数量,从而提升整体性能。增加重写查询的数量并不总是有益的,因为它可能会引入噪声。

自适应策略选择

•通过轻量级提示和少量学习动态选择最适合特定查询的重写策略。根据用户查询自适应地选择合适的重写策略。

实验验证

•通过在学术和工业环境中的广泛实验,验证了DMQR-RAG方法的有效性。

重写策略

一般查询重写(GQR:通用查询重写

•目的:用户生成的查询通常包含不相关的噪声和不明确的意图,消除查询中的噪声,提炼关键信息,提高检索精度。

•方法:保留所有相关信息,去除无关噪声。

关键词重写(KWR

•目的:提取查询中的关键词汇,尤其是名词和主语,以符合搜索引擎的偏好。

•方法:通过关键词快速定位相关文档,减轻搜索引擎的解析负担。

伪答案重写(PAR

•目的:利用LLMs生成伪答案,丰富原始查询,提高检索多样性。

•方法:即使伪答案在事实上不准确,也能在语义上与真实答案保持一致,帮助检索更相关的文档。

核心内容提取(CCE

•目的:在查询中去除多余的细节,提取最关键的信息。

•方法:丢弃无关细节,提取关键信息,减轻下游模块的负担。

自适应策略选择

策略介绍

       虽然多查询重写可以增强检索多样性,对每个查询应用一组固定的策略并非最优的。动态选择适合每个特定查询的重写策略是至关重要的。

•利用轻量级提示和少量学习,动态选择适合特定查询的重写策略。

•将重写策略的描述作为上下文信息纳入LLMs的提示中,使模型能够全面理解所有可用的重写策略

•通过向llm提供示例,帮助他们为不同的困难查询选择合适的重写策略。

实验结果

使用自适应策略选择后的平均重写次数降低。

重写过少或过多(即1次重写或4次重写)会检索到的相关文档不足或噪声过大,这两种情况都不利于后续的结果。

总结与技术思想

总结

•提出DMQR-RAG框架,通过多样化的重写策略和自适应策略选择,提高了检索增强型LLMs的性能。

•根据信息级别开发了四种重写策略,以确保重写的查询的多样化。

•利用轻量提示和少次学习的自适应重写选择方法

核心思想

•不同的查询需要使用不同的重写方法。

•应用提示工程动态地为不同的查询选择不同的重写方法组合。