单位：社会计算和信息检索研究中心，哈尔滨工业大学，新加坡管理大学
来源：EMNLP
年份：2023

核心内容

本文关注的是多个LLM一起辩论并逐渐达成共识的过程中的自洽性问题。为了研究这个问题本文提出了一个叫做正式讨论框架（FORD）来主持三阶段讨论。最终发现，即使有观点相互矛盾，LLM 们也可以在讨论中逐渐达成共识。实验中还发现，如果各个LLM的智商不均衡的话，高智商LLM的意见就会占据统治地位。因此可以考虑用高智商LLM作为裁判来主导讨论，这样可以获得更好的效果。

背景

大语言模型（LLM）展现出了强大的通用智能，并且现在已经被广泛应用；
当前，人们已经训练出了专门针对各种下游子任务的大语言模型；现在人们试图让这些大模型彼此合作来解决更加复杂的问题；
目前绝大多数研究都将焦点置于单个大模型的逻辑自洽性上面，少有人研究多个大模型之间的逻辑自洽性。

方法论

INCON

INCON 即 inconsistency，是衡量一组模型中的不自洽性的指标。让一组 LLM 回答一组问题，LLM 们不能达成共识的问题占所有问题的比例就是 INCON。

FORD

FORD假定了辩论双方和裁判这三个LLM存在，一共包含三步：

选边站：针对数据集中某个问题，辩论双方独立回答并且给出理由；
大讨论：双方轮流坐庄，互相挑战对方的观点，直到一方妥协或达到最大次数；
裁判总结：裁判总结辩论内容，得出最终结论。

实验

本研究组织了三轮实验：

平等辩论：能力相似的两个 LLM 进行辩论；
不平等辩论：能力相差悬殊的两个 LLM 进行辩论；
圆桌辩论：多于 2 个 LLM 参与辩论；
1. 三个能力相似的 LLM 进行圆桌辩论；
2. 两个相对弱和一个相对强的 LLM 一起圆桌辩论。

三组平等辩论实验的结果（加粗数字为最高回答正确率）：

两组不平等辩论实验的结果：

两组圆桌辩论和与之对比的单 LLM 和双 LLM 辩论的实验结果：

结论

同一个基础模型微调 (Han 等, 2024) 得到的不同大模型对同一个问题也会有巨大的分歧；
LLM 天然就有协作讨论的能力，而且讨论本身就可以增强LLM的逻辑自洽性；
相似能力的 LLM 之间辩论形成妥协后给出答案，比它们各自独立回答正确率要高，且不同系列的 LLM 合作获得的效果更好；
在不匹配（mismatched）讨论中，强LLM会更倾向于坚持己见，但是会被某些顽固的弱LLM分散注意力从而影响表现.

启发与评价

INCON 的定义比较合理，可以精准地量化 LLM 之间的不一致性水平；
用自然科学的实验手段对多个LLM 共同辩论过程中的自洽性进行了充分的实验，探明了 LLM 彼此交互时的一些特点，证明了 LLM 拥有类似人类的合作能力；这样的实验方法可以被用于研究其他黑盒模型；
参与实验的大模型并不多，怎么挑选参与辩论的大模型、怎么最大限度上提高效果上还有研究空间。

202409 论文研读-Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate

核心内容

背景

方法论

INCON

FORD

实验

结论

启发与评价