来源:CIKM ’25
作者:QIN LUO等
单位:Huazhong University of Science and Technology
发表时间:2025 年 11月
一、研究背景
- 问题定义:推荐系统中的重排序 (Reranking)
在典型的推荐系统中,通常采用“召回-排序-重排序”的多阶段架构。
重排序是最后的关键一步,它对排序模型(如协同过滤模型)输出的Top-K候选列表进行精细化调整,旨在提升最终推荐列表的整体质量和用户体验。
- 现有LLM重排序方法的三大类别及其局限性:
逐点法 (Pointwise):让LLM独立地为每个商品打分。
缺点:完全忽略了原始推荐列表的顺序信息,过度依赖LLM。
列表法 (Listwise):将整个候选列表一次性输入LLM,让其直接输出重排后的列表。
缺点:受限于LLM的上下文长度;对输入顺序敏感;输出可能不完整或有重复项;计算开销大。
成对法 (Pairwise):像冒泡排序一样,反复让LLM比较相邻两个商品并交换位置。
缺点:需要进行大量的两两比较(O(K²)),计算开销巨大;早期的比较错误会在后续过程中被放大。
这篇文章提出 APCR —— 一种新颖且高效的基于大语言模型(LLM)的推荐重排序方法。
二、主要框架

APCR的核心思想是引入一个锚点 (Anchor) 来作为所有比较的共同基准,并通过一个位置感知的融合策略来结合LLM和原始模型的结果。
一、输入原始推荐列表与用户/商品文本信息

二、锚点选择
从原始列表中任意选择一个商品作为锚点 ,为所有候选商品提供一个统一的比较基准,避免成对比较中的传递性错误(如 A>B, B>C 但 C>A 的循环)。
三、双向提示构建与 LLM 成对比较:

四、构建 LLM 建议列表 :
对所有 K 个候选商品,重复 Step 3,得到各自的偏好分,按pi降序排列,生成 LLM 推荐的排序列表 。
五、位置感知融合生成最终列表 :

三、实验
实验设置
数据集:MovieLens-1M, Amazon-Book
基础推荐模型 (CFM):MF (矩阵分解), LightGCN (图神经网络)
对比方法:
RG (Pointwise)
RankGPT (Listwise)
PRP-Sliding (Pairwise)
评估指标:HR@1, NDCG@10/20, MAP@10/20
使用的LLM:Llama-3.1-8B-Instruct (未微调)
总体性能

(1)总体性能 :
APCR在所有数据集和基础模型上均显著优于所有基线方法。
相比最好的基线方法,各项指标均有稳定提升(例如,在MF+MovieLens上,NDCG@10提升7.43%)。
对输入顺序的鲁棒性分析

验证 APCR 是否像某些 Listwise 方法(如 RankGPT)那样对输入列表的初始顺序高度敏感。
对原始推荐列表进行三种扰动:
Original:原始顺序(CFM 输出)
Random:完全随机打乱
Reversed:完全逆序
APCR 所有比较都基于固定锚点,与商品在输入列表中的位置无关。

双向提示的有效性:
验证“双向提示”是否真能缓解 LLM 的位置偏差(Position Bias)。
构建两个变体:
APCR w/o two-way:仅使用单向提示(固定锚点在前)。
APCR (full):使用双向提示。
双向提示通过取平均,有效抵消了这种系统性偏差,使偏好分 pi更可靠。
四、总结与综合对齐思考
(一)论文核心内容
这篇论文提出“锚点引导的成对比较”范式,首次将统一参照物引入LLM重排序,从根本上解决了现有成对/列表方法在效率、一致性和偏差上的关键缺陷。其核心贡献包括:
提出“锚点成对比较”机制,实现高效且一致的LLM重排序:所有候选商品仅与一个固定锚点进行语义比较,将复杂度从O(K^2)降至O(K) ,同时消除多轮比较中的传递不一致性。
位置感知融合策略:利用LLM生成的相对偏好序(而非绝对分数),通过指数衰减调制原始协同过滤得分,实现语义信号与行为信号的轻量、可控融合。
(二)三维度对齐思考
1.0 技术创新-逻辑思维推理框架
这篇论文证实:“锚点+成对比较”框架范式,即让LLM围绕用户已选锚点进行相对优劣判断(而非直接打分或重排整个列表),既能显著提升效果,又具备高效率与强鲁棒性;可以直接借鉴其核心思想:将“同类优选”任务建模为“锚点食谱 vs 候选食谱”的多维度语义PK,并采用结构化提示与融合策略,从而在保证安全规则过滤和健康目标对齐的前提下,让LLM专注于生成可解释、可靠的优选理由,避免黑箱决策。
2.1 技术目标-专业手册公众服务
构建出高对比比较对:通过框架的检索-排序-LLM推理的pipeline,将高质量的健康候选产品送入比较对推理部分,构建(锚点食谱、候选产品1,候选产品2)的迭代逻辑比选,最终选择出最优食品,这篇论文提出的成对比较范式,已经展示出比listwise、pointwise更好的对比方法。
3.1 场景功能-食养通
在pk比选这个部分进行应用,针对用户选中的食品,在系统中自动推出结合用户个性化的更健康产品,并展示出对比性解释说明提升推荐效果。