202411 论文研读–RaFe: Ranking Feedback Improves Query Rewriting for RAG

单位：Zhejiang University，Alibaba Group，Nanjing University

来源：arxiv

发表时间：2024

背景

•改进查询重写的许多工作都试图利用带有反馈的强化学习的小模型，而非昂贵的大语言模型。

•目前的方法需要注释或反馈，泛化能力低且没有一个专门的查询重写的信号。

•灵感来源：传统信息检索（IR）系统中的重排模块，该模块基于查询对检索到的文档进行评分和排序，与查询重写的目标一致。

•该文提出RaFe，一个用于训练无注释的查询重写模型的框架。利用公开可用的重排器，RaFe提供了与重写目标非常一致的反馈。

查询改写是将原查询q重新表述为另一种形式q’，以便更好地检索相关段落。该方法目标是得到一个重写模型M_θ，将q重写为q’。

冷启动监督微调，初始化重写模型，以获得重写能力。

提示llm生成重写数据，制作一个训练重写的数据集。

由llm生成的重写记为T_all = {(q, q ‘)|q ’∈q‘}，其中q’为原始查询q的重写集。

将训练实例分成两部分T_all = [T_sft: T_f]，其中T_sft:和T_f分别表示用于SFT和反馈训练的实例。用标准SFT损失训练重写模型M_θ。

对于英语数据，使用开放域QA数据集：NQ 、TriviaQA 、HotpotQA 。

从三个数据集的训练集中随机收集60k个实例，指导T_all来训练重写模型。

在评估方面，收集NQ和TriviaQA的测试集，以及HotpotQA的开发集作为保留的评估数据集。

使用FreshQA （Vu et al ., 2023）进行域外评估。

使用重排器作为查询重写的自然反馈。

给定一个重新排序模型Mr，用查询q对文档d进行评分的过程可以表示为Mr（q, d）。根据Mr得到q’的排名分数，作为反馈信号。

离线反馈

•利用重写查询检索到的每个文档的排名分数来构造偏好数据。

•设置一个阈值来区分好的和坏的重写，平均排名分数与阈值的比较得到开放域QA的所有偏好对，（q, q’ _g, q’ _b）。

•使用DPO和KTO优化模型：DPO直接利用偏好对来优化模型，而KTO是一种可以从反馈中优化模型的方法，只需要一个能够表示q’是好重写还是坏重写的信号，而不需要整个偏好对。

在线反馈

•使用实时生成的排名分数作为在线反馈信号。

•利用近端策略优化（PPO）算法来实现在线反馈训练。

•训练过程包括重写、检索、评分和最终提供反馈。

核心内容

•该文提出了一种新的查询重写框架RaFe，它利用重排器的反馈作为信号。

•RaFe不需要标注标签，确保了培训框架的通用性。

•该文使用通用的和公共的重排器验证RaFe在跨语言数据集上的有效性。

思考

•这种改写方式依赖于重排器的效能。

•使用带反馈的方法能有效改进查询改写的准确性。