202605 论文研读-A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models

来源：ACM SIGIR
作者：Shengyao Zhuang、Honglei Zhuang等
单位：CSIRO、Google Research
发表时间：2024 年 7月

研究背景

LLM-based Zero-shot Ranking 的效果—效率矛盾
大语言模型已被广泛用于零样本文档重排序任务。
现有方法主要分为 Pointwise、Pairwise 和Listwise 三类。它们在排序效果与推理效率之间存在明显权衡。

如何在保持较高排序效果的同时，显著降低 LLM 推理开销？

这篇文章提出Setwise —— 一种全新的集合级（Setwise）提示方法，旨在解决现有技术中效果与效率难以兼得的痛点

主要框架

四类 Prompting 范式对比
Setwise 可以视为对 Pairwise 思想的自然扩展：比较粒度从 2 个候选提升到 1 个候选集合。

Setwise 的核心思想：一次比较多个候选

对 Listwise 的改造与方法性质总结

实验

实验设置

任务与数据集
核心任务：对 BM25 检索出的前 100 篇候选文档进行大模型零样本重排，目标找出 Top-10 。
权威数据：TREC DL 2019/2020 以及涵盖多领域的 BEIR 基准数据集。
参测模型
主实验基准：Flan-T5 系列（780M / 3B / 11B 参数），用于严格控制变量的公平对比。
拓展验证：Llama2-7b、Vicuna-13b 以及闭源的 GPT-3.5-turbo 。
评估双维度：效果 vs. 效率
效果（排得准）：采用官方评测指标 NDCG@10 。
效率（排得快）：全面考核 LLM 调用次数、Token 消耗量（输入与生成）、以及单次查询硬件延迟（Latency）。
关键超参数
Setwise 核心设定：每步让大模型同时对比 3 篇文档（c=3）。
上下文限制：单篇文档最大截断至 128 Tokens 。

总体性能

Pointwise虽然由于支持批处理而速度最快，但排序准确度较差，且其效果甚至会随模型尺寸增大而下降；
Pairwise和Listwise虽然准确度较高，但计算成本极为高昂，尤其是列表法在小参数模型上表现极差。
Setwise不仅让列表法在小模型上也能发挥出强大的性能，更在保持与最优成对法同等顶级排序准确度的前提下，将大模型推理次数、Token消耗和查询延迟等计算成本大幅削减了约62% ，完美实现了排序效果与效率的双赢。

综合对比
将 (a) 和 (b) 放在一起对比，核心观点是：
Setwise 方法 (左图) 比 Listwise 方法 (右图) 提供了更好的“性价比”。
效率优势：在达到相同 NDCG 效果（比如 0.68）时，Setwise 方法（左图）所需的延迟通常低于 Listwise 的 Likelihood 方法（右图）。
效果优势：在相似的延迟下，Setwise 方法往往能获得比 Listwise Generation 方法更高的准确率。

展示不同重排方法对“初始排序质量”的依赖程度。
它的核心结论是：Setwise Heapsort 方法最稳健（Robust），它几乎不受初始排序好坏的影响；而 Listwise.generate 方法非常脆弱，严重依赖初始排序。

总结与综合对齐思考

这篇论文核心创新点主要集中在算法设计和鲁棒性两个方面。其核心贡献包括：

提出了基于 Setwise 比较的堆排序框架：文章摒弃了传统的 Listwise（全列表生成）或简单的 Pairwise（两两比较）方法，提出了一种Setwise Heapsort 策略。
核心逻辑：利用大语言模型一次比较 c 个文档（Setwise），并结合堆排序算法的逻辑来组织这些比较。
优势：这种策略在排序效率（大模型调用次数/延迟）和排序效果（NDCG）之间取得了更好的平衡，比传统的冒泡排序或全列表生成更高效。

解决了重排模型对“初始排序”的依赖问题：文章发现现有的 Listwise 生成式方法对输入的文档顺序极其敏感（如果输入顺序被打乱，效果会崩塌）。
核心突破：证明了 Setwise Heapsort 具有极强的鲁棒性。
优势：无论初始检索结果是正序、倒序还是随机打乱，该方法都能稳定地输出高质量的排序结果，不再依赖 BM25 等检索器的初始质量。