202603 论文研读-Anchor-based Pairwise Comparison via Large Language Model for Recommendation Reranking

来源：CIKM ’25
作者：QIN LUO等
单位：Huazhong University of Science and Technology
发表时间：2025 年 11月

一、研究背景

问题定义：推荐系统中的重排序 (Reranking)
在典型的推荐系统中，通常采用“召回-排序-重排序”的多阶段架构。

重排序是最后的关键一步，它对排序模型（如协同过滤模型）输出的Top-K候选列表进行精细化调整，旨在提升最终推荐列表的整体质量和用户体验。

现有LLM重排序方法的三大类别及其局限性：
逐点法 (Pointwise)：让LLM独立地为每个商品打分。
缺点：完全忽略了原始推荐列表的顺序信息，过度依赖LLM。
列表法 (Listwise)：将整个候选列表一次性输入LLM，让其直接输出重排后的列表。
缺点：受限于LLM的上下文长度；对输入顺序敏感；输出可能不完整或有重复项；计算开销大。
成对法 (Pairwise)：像冒泡排序一样，反复让LLM比较相邻两个商品并交换位置。
缺点：需要进行大量的两两比较（O(K²)），计算开销巨大；早期的比较错误会在后续过程中被放大。

这篇文章提出 APCR —— 一种新颖且高效的基于大语言模型（LLM）的推荐重排序方法。

二、主要框架

APCR的核心思想是引入一个锚点 (Anchor) 来作为所有比较的共同基准，并通过一个位置感知的融合策略来结合LLM和原始模型的结果。

一、输入原始推荐列表与用户/商品文本信息

二、锚点选择

从原始列表中任意选择一个商品作为锚点，为所有候选商品提供一个统一的比较基准，避免成对比较中的传递性错误（如 A>B, B>C 但 C>A 的循环）。

三、双向提示构建与 LLM 成对比较：

四、构建 LLM 建议列表：
对所有 K 个候选商品，重复 Step 3，得到各自的偏好分，按pi降序排列，生成 LLM 推荐的排序列表。

五、位置感知融合生成最终列表：

三、实验

实验设置
数据集：MovieLens-1M, Amazon-Book
基础推荐模型 (CFM)：MF (矩阵分解), LightGCN (图神经网络)
对比方法：
RG (Pointwise)
RankGPT (Listwise)
PRP-Sliding (Pairwise)
评估指标：HR@1, NDCG@10/20, MAP@10/20
使用的LLM：Llama-3.1-8B-Instruct (未微调)

总体性能

（1）总体性能：
APCR在所有数据集和基础模型上均显著优于所有基线方法。
相比最好的基线方法，各项指标均有稳定提升（例如，在MF+MovieLens上，NDCG@10提升7.43%）。

对输入顺序的鲁棒性分析

验证 APCR 是否像某些 Listwise 方法（如 RankGPT）那样对输入列表的初始顺序高度敏感。
对原始推荐列表进行三种扰动：
Original：原始顺序（CFM 输出）
Random：完全随机打乱
Reversed：完全逆序
APCR 所有比较都基于固定锚点，与商品在输入列表中的位置无关。

双向提示的有效性：

验证“双向提示”是否真能缓解 LLM 的位置偏差（Position Bias）。
构建两个变体：
APCR w/o two-way：仅使用单向提示（固定锚点在前）。
APCR (full)：使用双向提示。
双向提示通过取平均，有效抵消了这种系统性偏差，使偏好分 pi更可靠。

四、总结与综合对齐思考

（一）论文核心内容

这篇论文提出“锚点引导的成对比较”范式，首次将统一参照物引入LLM重排序，从根本上解决了现有成对/列表方法在效率、一致性和偏差上的关键缺陷。其核心贡献包括：
提出“锚点成对比较”机制，实现高效且一致的LLM重排序：所有候选商品仅与一个固定锚点进行语义比较，将复杂度从O(K^2)降至O(K) ,同时消除多轮比较中的传递不一致性。
位置感知融合策略：利用LLM生成的相对偏好序（而非绝对分数），通过指数衰减调制原始协同过滤得分，实现语义信号与行为信号的轻量、可控融合。

（二）三维度对齐思考

1.0 技术创新-逻辑思维推理框架
这篇论文证实：“锚点+成对比较”框架范式，即让LLM围绕用户已选锚点进行相对优劣判断（而非直接打分或重排整个列表），既能显著提升效果，又具备高效率与强鲁棒性；可以直接借鉴其核心思想：将“同类优选”任务建模为“锚点食谱 vs 候选食谱”的多维度语义PK，并采用结构化提示与融合策略，从而在保证安全规则过滤和健康目标对齐的前提下，让LLM专注于生成可解释、可靠的优选理由，避免黑箱决策。

2.1 技术目标-专业手册公众服务
构建出高对比比较对：通过框架的检索-排序-LLM推理的pipeline，将高质量的健康候选产品送入比较对推理部分，构建（锚点食谱、候选产品1，候选产品2）的迭代逻辑比选，最终选择出最优食品，这篇论文提出的成对比较范式，已经展示出比listwise、pointwise更好的对比方法。

3.1 场景功能-食养通
在pk比选这个部分进行应用，针对用户选中的食品，在系统中自动推出结合用户个性化的更健康产品，并展示出对比性解释说明提升推荐效果。