202601 论文研读 – LLM Self-Correction with DECRIM: DECOMPOSE, CRITIQUE, AND REFINE for Enhanced Following of Instructionswith Multiple Constraints

作者:Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin等
单位:亚马逊通用人工智能基础研究团队、法国巴黎电信学院等
来源:EMNLP
时间:2024.10

研究背景与动机

大型语言模型(LLMs)在遵循指令方面取得了显著进展,但当指令包含多个约束条件时(例如,“写一条推文,语气要幽默,不能使用标签,并且要推广AI”),其表现往往不尽如人意。现有研究和评估基准存在两个主要问题:
数据不真实:大多数评估基准(如IFEval)依赖于合成数据(synthetic data)。这些数据虽然便于自动化评估,但可能无法准确捕捉真实世界用户请求的复杂性和细微差别,甚至可能人为地制造出不切实际的难题。
评估成本高:评估真实世界的开放式指令非常困难,通常需要昂贵且耗时的人工标注。
因此,该领域缺乏一个能有效衡量LLM在处理真实、多约束用户请求时能力的基准,也缺乏一种高效、低成本的评估方法。同时,开源模型与顶尖闭源模型(如GPT-4)之间在该任务上存在明显的性能差距。

研究问题

本文旨在解决以下三个核心问题:
评估问题:如何构建一个基于真实用户请求的、可靠的多约束指令遵循评估基准?
评估成本问题:能否用模型自身(LLM-as-a-Judge)来替代人工进行低成本、高效率的评估?
性能提升问题:如何设计一个通用的自修正框架,以提升(尤其是开源)LLM在多约束指令遵循任务上的表现,并缩小与顶尖闭源模型的差距?
为了解决上述问题,本文提出了三项主要贡献:
REALINSTRUCT 基准:这是第一个利用真实用户向AI助手提问的数据构建的多约束指令遵循评估基准。
LLM-as-a-Judge 评估协议:系统性地研究了使用开源和闭源LLM作为评估器来判断约束满足情况的有效性。
DECRIM 自修正流水线:一个新颖的、无需对约束类型做任何假设的自修正框架,用于增强LLM遵循多约束指令的能力。

解决办法-DECRIM 方法

DECRIM 是一个迭代式的自修正流水线,其核心思想是将复杂的多约束指令分解、批判并精炼。它包含四个关键步骤,循环执行直至所有约束被满足或达到最大迭代次数。
步骤一:初始响应 (Initial Response)
LLM直接根据用户的原始指令生成一个初步的回答。
步骤二:分解 (Decompose)
使用一个“分解器”(Decomposer)模型(可以是LLM本身或其他模型)将原始的、复杂的用户指令分解成一个清晰、细粒度的约束列表。

步骤三:批判 (Critique)
使用一个“批评家”(Critic)模型,根据上一步得到的约束列表,逐条检查初始响应是否满足了所有约束。
如果所有约束都满足,则将当前响应作为最终输出,流程结束。
如果有未满足的约束,批评家会以自然语言的形式提供具体的反馈,明确指出哪些约束未被满足。
步骤四:精炼 (Refine)
将批评家提供的具体反馈、原始用户指令以及上一轮的响应一起输入给底层的LLM。LLM根据这些信息生成一个改进后的新响应,目标是修正之前未满足的约束。
循环迭代:新生成的响应会再次进入“批判”步骤,接受新一轮的检查。这个“批判-精炼”的循环会持续进行,直到响应通过所有约束的检验,或者达到预设的最大迭代次数。

实验围绕三大贡献展开:
验证 LLM-as-a-Judge:
数据集:创建了EvalJudge数据集,包含近1000个经过专家人工验证的(指令,约束,响应)三元组。
模型:测试了GPT-4、GPT-4-Turbo、GPT-3.5-Turbo等闭源模型,以及Mistral、Vicuna、Zephyr等开源模型。
策略:比较了不同的提示策略(如整体评估 vs. 逐条评估,是否使用思维链CoT)和微调策略(用GPT-4-Turbo的推理过程弱监督训练Mistral)。
REALINSTRUCT 基准测试:
在REALINSTRUCT和流行的合成基准IFEval上,对多个开源和闭源模型进行了多约束指令遵循能力的基准测试。
使用经过验证的最佳评估器(GPT-4-Turbo + CoT)进行打分。
DECRIM 流水线评估:
主模型:以Mistral 7B v0.2作为底层LLM。
基线:与常规提示、“Make sure to follow all constraints”提示、以及Self-Refine等现有自修正方法进行比较。
消融研究:分别测试了不同强度的“分解器”(Self-Decomposer vs. Oracle Decomposer)和“批评家”(Self-Critic, Supervised Critic, GPT-4, Oracle Critic)对最终性能的影响。
质量评估:使用Prometheus-2评估精炼前后响应的整体质量,确保修正过程没有损害回答的流畅性和相关性。

核心内容总结:
1.提出REALINSTRUCT基准:首个基于真实用户交互的多约束指令遵循评估集,填补了合成数据与现实应用之间的鸿沟。
2.提出DECRIM框架:一个不依赖于约束先验知识的、基于细粒度反馈的迭代式自修正范式。其核心创新在于将复杂的全局优化问题,转化为一系列由批评家指导的、目标明确的局部修正任务。
3.对LLM-as-a-Judge的系统性分析:首次在多约束遵循任务上,全面比较了不同模型和策略作为评估器的效果,为社区提供了宝贵的实践指南。