- 单位:社会计算和信息检索研究中心,哈尔滨工业大学,新加坡管理大学
- 来源:EMNLP
- 年份:2023
核心内容
本文关注的是多个LLM一起辩论并逐渐达成共识的过程中的自洽性问题。为了研究这个问题本文提出了一个叫做正式讨论框架(FORD)来主持三阶段讨论。最终发现,即使有观点相互矛盾,LLM 们也可以在讨论中逐渐达成共识。实验中还发现,如果各个LLM的智商不均衡的话,高智商LLM的意见就会占据统治地位。因此可以考虑用高智商LLM作为裁判来主导讨论,这样可以获得更好的效果。
背景
- 大语言模型(LLM)展现出了强大的通用智能,并且现在已经被广泛应用;
- 当前,人们已经训练出了专门针对各种下游子任务的大语言模型;现在人们试图让这些大模型彼此合作来解决更加复杂的问题;
- 目前绝大多数研究都将焦点置于单个大模型的逻辑自洽性上面,少有人研究多个大模型之间的逻辑自洽性。
方法论
INCON
INCON 即 inconsistency,是衡量一组模型中的不自洽性的指标。让一组 LLM 回答一组问题,LLM 们不能达成共识的问题占所有问题的比例就是 INCON。
FORD
FORD假定了辩论双方和裁判这三个LLM存在,一共包含三步:
- 选边站:针对数据集中某个问题,辩论双方独立回答并且给出理由;
- 大讨论:双方轮流坐庄,互相挑战对方的观点,直到一方妥协或达到最大次数;
- 裁判总结:裁判总结辩论内容,得出最终结论。
实验
本研究组织了三轮实验:
- 平等辩论:能力相似的两个 LLM 进行辩论;
- 不平等辩论:能力相差悬殊的两个 LLM 进行辩论;
- 圆桌辩论:多于 2 个 LLM 参与辩论;
- 三个能力相似的 LLM 进行圆桌辩论;
- 两个相对弱和一个相对强的 LLM 一起圆桌辩论。
三组平等辩论实验的结果(加粗数字为最高回答正确率):
两组不平等辩论实验的结果:
两组圆桌辩论和与之对比的单 LLM 和双 LLM 辩论的实验结果:
结论
- 同一个基础模型微调 (Han 等, 2024) 得到的不同大模型对同一个问题也会有巨大的分歧;
- LLM 天然就有协作讨论的能力,而且讨论本身就可以增强LLM的逻辑自洽性;
- 相似能力的 LLM 之间辩论形成妥协后给出答案,比它们各自独立回答正确率要高,且不同系列的 LLM 合作获得的效果更好;
- 在不匹配(mismatched)讨论中,强LLM会更倾向于坚持己见,但是会被某些顽固的弱LLM分散注意力从而影响表现.
启发与评价
- INCON 的定义比较合理,可以精准地量化 LLM 之间的不一致性水平;
- 用自然科学的实验手段对多个LLM 共同辩论过程中的自洽性进行了充分的实验,探明了 LLM 彼此交互时的一些特点,证明了 LLM 拥有类似人类的合作能力;这样的实验方法可以被用于研究其他黑盒模型;
- 参与实验的大模型并不多,怎么挑选参与辩论的大模型、怎么最大限度上提高效果上还有研究空间。