202409 论文研读-Examining Inter-Consistency of Large Language Models Collaboration: An In-depth Analysis via Debate

  • 单位:社会计算和信息检索研究中心,哈尔滨工业大学,新加坡管理大学
  • 来源:EMNLP
  • 年份:2023

核心内容

本文关注的是多个LLM一起辩论并逐渐达成共识的过程中的自洽性问题。为了研究这个问题本文提出了一个叫做正式讨论框架(FORD)来主持三阶段讨论。最终发现,即使有观点相互矛盾,LLM 们也可以在讨论中逐渐达成共识。实验中还发现,如果各个LLM的智商不均衡的话,高智商LLM的意见就会占据统治地位。因此可以考虑用高智商LLM作为裁判来主导讨论,这样可以获得更好的效果。


背景

  1. 大语言模型(LLM)展现出了强大的通用智能,并且现在已经被广泛应用;
  2. 当前,人们已经训练出了专门针对各种下游子任务的大语言模型;现在人们试图让这些大模型彼此合作来解决更加复杂的问题;
  3. 目前绝大多数研究都将焦点置于单个大模型的逻辑自洽性上面,少有人研究多个大模型之间的逻辑自洽性。

方法论

INCON

INCON 即 inconsistency,是衡量一组模型中的不自洽性的指标。让一组 LLM 回答一组问题,LLM 们不能达成共识的问题占所有问题的比例就是 INCON。


FORD

FORD假定了辩论双方和裁判这三个LLM存在,一共包含三步:

  1. 选边站:针对数据集中某个问题,辩论双方独立回答并且给出理由;
  2. 大讨论:双方轮流坐庄,互相挑战对方的观点,直到一方妥协或达到最大次数;
  3. 裁判总结:裁判总结辩论内容,得出最终结论。

实验

本研究组织了三轮实验:

  1. 平等辩论:能力相似的两个 LLM 进行辩论;
  2. 不平等辩论:能力相差悬殊的两个 LLM 进行辩论;
  3. 圆桌辩论:多于 2 个 LLM 参与辩论;
    1. 三个能力相似的 LLM 进行圆桌辩论;
    2. 两个相对弱和一个相对强的 LLM 一起圆桌辩论。

三组平等辩论实验的结果(加粗数字为最高回答正确率):



两组不平等辩论实验的结果:



两组圆桌辩论和与之对比的单 LLM 和双 LLM 辩论的实验结果:



结论

  1. 同一个基础模型微调 (Han 等, 2024) 得到的不同大模型对同一个问题也会有巨大的分歧;
  2. LLM 天然就有协作讨论的能力,而且讨论本身就可以增强LLM的逻辑自洽性;
  3. 相似能力的 LLM 之间辩论形成妥协后给出答案,比它们各自独立回答正确率要高,且不同系列的 LLM 合作获得的效果更好;
  4. 在不匹配(mismatched)讨论中,强LLM会更倾向于坚持己见,但是会被某些顽固的弱LLM分散注意力从而影响表现.

启发与评价

  1. INCON 的定义比较合理,可以精准地量化 LLM 之间的不一致性水平;
  2. 用自然科学的实验手段对多个LLM 共同辩论过程中的自洽性进行了充分的实验,探明了 LLM 彼此交互时的一些特点,证明了 LLM 拥有类似人类的合作能力;这样的实验方法可以被用于研究其他黑盒模型;
  3. 参与实验的大模型并不多,怎么挑选参与辩论的大模型、怎么最大限度上提高效果上还有研究空间。