202411论文研读-CONTEXTUAL DOCUMENT EMBEDDINGS

作者:John X. Morris,Alexander M. Rush

单位:Cornell University

来源:arXiv 2024

一、主要内容

主要探讨如何在文本检索任务中通过引入上下文信息来提升文档嵌入的表现。作者认为传统双编码器架构在编码时忽略了文档间的上下文联系,导致在跨域或特定域检索中的性能不佳。为此,提出了上下文对比学习(Contextual Contrastive Learning)上下文编码架构(Contextual Encoder Architecture) 两种技术来改善这一问题。实验结果表明,这种方法在多个基准数据集上的表现优于无上下文的双编码器,尤其在出域检索任务中展现了更强的泛化能力。

  1. 上下文对比学习:通过生成邻近文档并在批次中引入这些上下文文档,使模型在对比学习中更好地利用负样本。
  2. 上下文编码架构:通过两阶段的嵌入架构,主文档嵌入过程中引入邻近文档的信息,以生成更具领域感知的嵌入。
  3. 实验验证:在不同任务和数据集上对模型进行了测试,尤其在跨域任务和特定领域(如医疗和金融)任务中取得了显著提升。

二、方法

一、上下文对比学习(Contextual Contrastive Learning):

• 本文采用快速聚类算法将查询-文档对分组,以生成邻近文档的集合。

• 上下文对比学习的损失函数:在上下文对比学习中,模型在批次内仅考虑同一上下文批次的负样本,而不依赖全局负样本

二、上下文编码架构(Contextual Encoder Architecture):
• 设计目标:在编码文档时,将邻近文档的信息整合到文档的嵌入生成中。
• 两阶段嵌入

• 第一阶段:M_1(d_1),M_1(d_2),…,M_1(d_J)
• 第二阶段:ϕ(d′;D)=M_2(M_1(d_1),…,M_1(d_J),E(d′_1),…,E(d′_T))

三、实验

• 模型训练:
• 小规模实验:在小规模的BEIR数据集上进行多种批次和聚类规模的实验,以验证对比学习与上下文编码的有效性。
• 大规模实验:在完整的MTEB基准上进行实验,以评估该方法在更大规模检索任务中的表现。MTEB包含了文本检索、分类、聚类等多种任务,覆盖了医疗、金融等多个领域。
• 训练数据与指标:
• 训练数据:使用200M的弱监督数据,同时在1.8M人工标注的查询-文档对上进行有监督微调。
• 评估指标:NDCG@10

四、总结

这篇论文探讨如何在文本检索任务中通过引入上下文信息来提升文档嵌入的表现。传统双编码器架构在编码时忽略了文档间的上下文联系,导致在跨域或特定域检索中的性能不佳。
为此,提出了上下文对比学习(Contextual Contrastive Learning) 和 上下文编码架构(Contextual Encoder Architecture)。这种方法在多个基准数据集上的表现优于无上下文的双编码器,尤其在出域检索任务中展现了更强的泛化能力。