来源:arXiv
作者:Jiale Cheng、Xiao Liu等
单位:清华大学、智谱AI
发表时间:2023 年 11 月
一、背景
- LLM的强大能力与对齐问题:
大语言模型(如GPT-4、Claude-2)在生成流畅文本、任务完成等方面取得了显著成功。但不能很好地对齐人类的意图,需要额外的对齐方法。 - 现有对齐方法的局限性:
主流的对齐方法依赖模型的进一步训练–人类反馈强化学习(RLHF)和直接偏好优化(DPO)。
高昂的计算成本:随着模型规模增大,训练费用急剧上升。
可访问性:许多性能最好的模型(如GPT-4)是封闭源的,用户无法直接调整模型参数。
可解释性差:现有方法的对齐机制难以直观理解。
引出黑盒提示优化:通过优化用户提示,使其更符合模型的输入理解,从而无需更改模型参数就实现对齐
二、BPO实现

BPO的核心功能:优化用户prompts,无需对模型本身进行进一步训练或修改参数,解决LLM对齐问题。
- BPO框架———数据收集功能实现:
这一阶段的目标是构建一套高质量的偏好反馈数据,明确区分模型生成的优质和劣质响应,以供后续优化使用。
形成带偏好标注的训练数据集,每个样本以三元组表示:(指令, 优质响应, 劣质响应)。

2. BPO框架———优化提示构建功能实现:
这一阶段的目标是基于反馈数据生成优化后的提示(prompts),以更好地传达用户的意图。
得到一对优化提示和原始提示的样本:(原始指令, 优化指令)。

3. BPO框架———优化器模型训练功能实现:
这一阶段的目标是利用生成的优化提示数据训练一个seq2seq模型,用于自动优化用户输入的提示。
训练一个小型的seq2seq模型,使其能够将用户的原始指令映射到优化后的指令。(Llama-2-7b-chat)

三、BPO实验
数据集:从 4 个数据集中抽取了 15000 条样本,过滤后剩余 14395 条,多样性(Distinct-4)从 0.860 提升到 0.913,数据质量和多样性均显著提升。

由于不同数据集的格式和内容存在差异,BPO 方法为这些数据集分别设计了两种类型的提示结构:不带上下文的提示 和 带上下文的提示。


- 黑盒对齐实验结果

无法直接访问模型参数的 API 模型:
BPO 提示在所有测试数据集上均显著提升了胜率,尤其在 GPT-3.5-turbo 和 Claude-instant 上的改进幅度最大。

开源大语言模型:
小模型(如 LLaMA-2-7B-chat)在使用 BPO 后,其性能接近甚至超过更大规模的模型(如 LLaMA-2-70B-chat),表明 BPO 能有效提升小模型的性能。
2. 与 RLHF 方法的比较

- BPO 单独使用:性能优于现有的对齐方法(PPO 和 DPO)。
- BPO 与其他方法结合:进一步提升模型的对齐能力,特别是在复杂任务和多样化数据集上。
- 通用性强:BPO 适用于不同模型(Vicuna-7B 和 Vicuna-13B)以及不同任务类型,具有广泛的适用性。
3. 数据增强中的 BPO 应用

- 在所有数据集和模型上,BPO 优化数据生成的模型胜率显著高于原始数据集。
- 大规模模型(如 llama-13b)在 BPO 优化数据上的改进幅度更大,表明 BPO 对复杂模型的帮助更显著。
- BPO 是一种高效的提示优化方法,能够生成高质量训练数据,从而显著提升开源模型的对齐能力和任务表现
四、论文核心内容
- 这篇论文提出了一种基于黑盒提示优化(BPO)的模型对齐方法框架,核心目的是通过优化用户输入提示,使LLM在无需进一步训练或修改参数的情况下,提供更准确、更符合用户意图的响应。
黑盒优化
BPO 将模型视为一个黑盒系统,无需访问或修改其参数,通过优化输入提示提高响应质量。
这种方法特别适用于封闭源模型(如 GPT-4),克服了传统训练方法的局限性。BPO显著优势
无需模型训练:避免了传统对齐方法中高成本的训练步骤(如强化学习)。
模型无关性:BPO 适用于各种类型的模型(如开源模型和黑盒模型)。
任务通用性:无需为特定任务定制优化策略,广泛适用于不同的任务场景。
五、综合对其思考
- 收获:
开创性的对齐方法:论文首次提出将黑盒提示优化(BPO引入模型对齐领域,通过优化用户提示的方式实现高效对齐,避免了传统方法中的高成本训练,拓展了模型优化的新思路。
数据优化贡献:通过生成高质量的优化数据,提升了小规模模型(如 LLaMA-7B)的性能,使其接近甚至超越大规模模型(如 LLaMA-13B 和 LLaMA-70B),验证了提示优化对模型效果的放大作用。
2. 改进:
上下文信息处理:BPO 目前只关注基于当前输入的直接优化,但未对复杂的多轮对话进行专门优化,如果应用于对话推荐领域,可结合记忆机制和用户对话场景进行优化。
评分偏差:该实验主要依赖人工标注优劣响应,可能导致评分的主观性较强,可以使用已有的自然语言生成评价工具,如 BLEU、ROUGE、Perplexity 等,结合人工评分,提高评估结果的客观性。