202407 论文研读-Selective Prompting Tuning for Personalized Conversations with LLMs

作者：Qiushi Huang, Xubo Liu, Tom Ko, Bo Wu, Wenwu Wang, Yu Zhang, Lilian Tang
单位：arXiv
Accepted to ACL 2024 findings
时间： 2024年6月26日

一、主要内容

在对话式人工智能中，个性化对话是非常重要的。本文研究了两种常见的个性化大语言模型（LLMs）的方法：文本提示和直接微调。研究发现，文本提示通常难以生成与数据集中的真实数据相似的响应，而直接微调则容易产生重复或过于通用的回复。为了解决这些问题，本文提出了选择性提示调优（SPT），它通过选择合适的软提示来实现个性化对话。本文提出一下：
1.提出SPT方法：通过集成可训练的密集检索器和动态软提示选择，SPT方法提高了对话的个性化和多样性。
2.引入对比学习和提示融合学习：在一个统一的框架内引入了上下文提示对比机制和提示融合学习，以促进提示多样性和适应性。
3.实验验证：在CONVAI2数据集上的实验表明，SPT方法在响应多样性和互动性上显著优于基线模型。

二、方法

整体框架：

软提示组 (Soft Prompt Group)：一组随机初始化的软提示，用于生成个性化回复。每个软提示由 𝐿×𝐷个虚拟令牌组成
密集检索器 (Dense Retriever)：根据输入上下文选择最合适的软提示。
冻结的LLM (Frozen LLM)：使用冻结的LLM生成最终回复，通过这种方式减少内存占用和训练资源。LLM的权重在训练过程中保持不变。