202412论文研读-DMQR-RAG: DIVERSE MULTI-QUERY REWRITING IN RETRIEVAL-AUGMENTED GENERATION

作者单位：Kuaishou Technology,outheast University，Beijing Jiaotong University

来源：arxiv

发表时间：2024.11

背景

•检索增强型生成（RAG）范式下，用户查询存在噪声和意图偏差。

•重写查询以提高检索文档的相关性，现有方法多样性和适用性不足

•研究具有不同信息量的查询如何检索不同的文档数组，提出了在不同信息级别上操作的四种重写策略，以提高基线方法的性能。

•提出了一种自适应策略选择方法

•框架目标：

•提高文档检索和最终响应的性能，特别是在检索增强型LLMs中。

•核心思想：

•通过多样化的查询重写策略（基于不同信息水平的四种重写策略），提高检索到的相关文档的多样性和数量，从而提升整体性能。增加重写查询的数量并不总是有益的，因为它可能会引入噪声。

•自适应策略选择：

•通过轻量级提示和少量学习动态选择最适合特定查询的重写策略。根据用户查询自适应地选择合适的重写策略。

•实验验证：

•通过在学术和工业环境中的广泛实验，验证了DMQR-RAG方法的有效性。

•一般查询重写（GQR）：通用查询重写

•目的：用户生成的查询通常包含不相关的噪声和不明确的意图，消除查询中的噪声，提炼关键信息，提高检索精度。

•方法：保留所有相关信息，去除无关噪声。

•关键词重写（KWR）：

•目的：提取查询中的关键词汇，尤其是名词和主语，以符合搜索引擎的偏好。

•方法：通过关键词快速定位相关文档，减轻搜索引擎的解析负担。

•伪答案重写（PAR）

•目的：利用LLMs生成伪答案，丰富原始查询，提高检索多样性。

•方法：即使伪答案在事实上不准确，也能在语义上与真实答案保持一致，帮助检索更相关的文档。

•核心内容提取（CCE）：

•目的：在查询中去除多余的细节，提取最关键的信息。

•方法：丢弃无关细节，提取关键信息，减轻下游模块的负担。

策略介绍

虽然多查询重写可以增强检索多样性，对每个查询应用一组固定的策略并非最优的。动态选择适合每个特定查询的重写策略是至关重要的。

•利用轻量级提示和少量学习，动态选择适合特定查询的重写策略。

•将重写策略的描述作为上下文信息纳入LLMs的提示中，使模型能够全面理解所有可用的重写策略

•通过向llm提供示例，帮助他们为不同的困难查询选择合适的重写策略。

实验结果

使用自适应策略选择后的平均重写次数降低。

重写过少或过多（即1次重写或4次重写）会检索到的相关文档不足或噪声过大，这两种情况都不利于后续的结果。

•总结：

•提出DMQR-RAG框架，通过多样化的重写策略和自适应策略选择，提高了检索增强型LLMs的性能。

•根据信息级别开发了四种重写策略，以确保重写的查询的多样化。

•利用轻量提示和少次学习的自适应重写选择方法。

•核心思想：

•不同的查询需要使用不同的重写方法。

•应用提示工程动态地为不同的查询选择不同的重写方法组合。