202407 论文研读-Selective Prompting Tuning for Personalized Conversations with LLMs

作者:Qiushi Huang, Xubo Liu, Tom Ko, Bo Wu, Wenwu Wang, Yu Zhang, Lilian Tang
单位:arXiv
Accepted to ACL 2024 findings
时间: 2024年6月26日

一、主要内容

在对话式人工智能中,个性化对话是非常重要的。本文研究了两种常见的个性化大语言模型(LLMs)的方法:文本提示和直接微调。研究发现,文本提示通常难以生成与数据集中的真实数据相似的响应,而直接微调则容易产生重复或过于通用的回复。为了解决这些问题,本文提出了选择性提示调优(SPT),它通过选择合适的软提示来实现个性化对话。本文提出一下:
1.提出SPT方法:通过集成可训练的密集检索器和动态软提示选择,SPT方法提高了对话的个性化和多样性。
2.引入对比学习和提示融合学习:在一个统一的框架内引入了上下文提示对比机制和提示融合学习,以促进提示多样性和适应性。
3.实验验证:在CONVAI2数据集上的实验表明,SPT方法在响应多样性和互动性上显著优于基线模型。

二、方法

整体框架:

软提示组 (Soft Prompt Group):一组随机初始化的软提示,用于生成个性化回复。每个软提示由 𝐿×𝐷个虚拟令牌组成
密集检索器 (Dense Retriever):根据输入上下文选择最合适的软提示。
冻结的LLM (Frozen LLM):使用冻结的LLM生成最终回复,通过这种方式减少内存占用和训练资源。LLM的权重在训练过程中保持不变。

(1)为了选择合适的软提示,首先计算上下文和软提示的相似性得分:

(2)(3)学习提示选择

计算每个软提示的负对数似然损失

为了将检索器的相似性评分与软提示损失对齐,使用KL散度来计算提示选择损失

(4)上下文-提示对比学习

(5)提示融合学习

在推断阶段,根据输入上下文选择最合适的软提示,并生成最终结果

三、实验

使用CONVAI2数据集,该数据集包含8939个训练对话和1000个验证对话,每个对话包含多轮对话和人设信息。
超参数:
软提示长度:OPT模型为8个令牌,Llama2模型为1个令牌。
软提示组数量:K=4
学习率:根据不同模型分别设置(OPT-2.7B为0.001,Llama2-7B为0.01)

四、总结

本文提出的选择性提示调优(Selective Prompt Tuning, SPT)方法,通过集成可训练的密集检索器和动态软提示选择,显著提高了个性化对话生成的性能。

SPT技术通过初始化一组软提示(soft prompts),并使用可训练的密集检索器(dense retriever)根据输入上下文自适应地选择合适的软提示,从而提高对话的个性化和多样性。

SPT在训练过程中引入了上下文-提示对比学习(context-prompt contrastive learning)和提示融合学习(prompt fusion learning)机制,进一步增强了对话生成的多样性和质量。