202510论文研读-Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery

作者：Yuxin Wen Neel Jain John Kirchenbauer等
单位：University of Maryland, New York University
来源：NeurIPS
时间：2023

研究背景与动机

硬提示（Hard Prompts）：由人类手工设计的、可解释的、离散的文本词元序列（如“a photo of a cat”），优点是可读、可迁移、可复用，但发现高质量提示依赖专家经验或试错，效率低。
软提示（Soft Prompts）：连续的嵌入向量（embedding），可通过梯度优化自动学习，性能强，但不可读、不可迁移、无法用于API接口。
尽管软提示在优化上更高效，但其不可解释性和不可移植性限制了其在实际应用中的广泛使用。因此，如何结合两者的优点——自动学习 + 可解释 + 可迁移——成为关键问题。
提出一种高效、自动化的方法，通过基于梯度的离散优化技术，自动生成高质量的硬提示（human-readable text prompts），用于文本到图像和文本到文本任务。
如何在离散的文本空间中进行高效的梯度优化？（传统梯度方法适用于连续空间）
如何让自动学习的提示既性能强又可解释、可迁移？

PEZ (Pronounced “easy”)：一种简单高效的基于梯度的离散提示优化算法。
核心思想：
在连续空间中进行梯度优化（像软提示一样训练），
但在每次前向传播时，将连续嵌入投影到最近的真实词嵌入上（实现离散化），
最终输出的是真实的、可读的文本 token 序列。
这借鉴了量化神经网络训练中的“重投影”（re-projection）策略，避免了传统离散优化中梯度不可导的问题。

优化对象：可学习的连续嵌入 P
初始化：
从词表嵌入矩阵 E中随机选择 M 个真实词的嵌入，作为初始 P。
最终投影：
优化结束后，对最终的 P 做一次投影，得到最优的离散提示 P ∗。
将 P∗转换为对应的 token 序列，即为可读、可迁移的硬提示。

1、前向投影：将当前连续嵌入P投影到最近的真实词嵌入，得到离散提示 P ′，此时P′ 对应一个真实的、可读的 token 序列，这一步确保模型输入是真实的文本 token，而不是软嵌入。

2、前向传播 & 损失计算：使用P′ 作为提示，输入到冻结模型 θ 中，计算任务损失 L。

3、反向传播 & 梯度计算：计算损失对投影后嵌入P′的梯度。虽然 P′ 是离散的，但由于它是从 P 投影而来，且投影是可微近似（通过最近邻查找），梯度可以回传到 P

4、在连续空间更新 P：使用梯度 g 更新原始的连续嵌入 P，而不是 P′

重复以上步骤直至收敛，模型逐渐学习到一个能最小化损失的嵌入序列P。

实验

核心内容总结

核心内容总结：
1.结合硬提示和软提示优化方法各自的优点，提出连续-离散混合优化方法PEZ。维护一个连续的 soft prompt作为优化变量，但每次前向都用离散的 hard prompt计算损失和梯度。
2.设计一个投影函数（Proj_E）将每个嵌入向量映射到词表中最相似的真实词嵌入（最近邻），利用投影函数得到的自然语言提示词，增强可解释性。
3.使用的梯度回传机制中，梯度从离散的 P′P′ 计算，但更新的是连续的 PP，避免了“梯度消失”问题。
4.无需额外采样或搜索，不像 AutoPrompt 需要枚举候选 token，PEZ 只需一次前向和一次反向，效率高。