202412 论文研读–ConceptLab:Creative Concept Generation using VLM-Guided Diffusion Prior Constraints

作者: Elad RichardsonKfir GoldbergYuval AlalufDaniel Cohen-OrAuthors Info & Claims

期刊:ACM Transactions on Graphics, Volume 43, Issue 3

时间:25 June 2024

一、研究背景

计算机图形学中对创造性生成的追求引发了对计算创造性的研究,其中涉及模拟创造性行为或试图提高和增强人类创造性过程的算法。得益于强大的文本到图像生成模型的快速发展,我们现在拥有了前所未有的能力,可以将语言转化为令人难以置信的多样化图像,为生成创意内容开辟了新的可能性。在这些模型的基础上,最近的个性化技术也使我们能够创建个性化概念并将其纳入生成过程。而我们能否利用这些功能强大的模型来生成一个模型没有明确描述的新颖的创造性概念?

二、核心内容

在本文中,作者利用扩散模型来解决从文本到图像的创意生成任务。具体来说,作者试图在一个给定的大类别中生成新颖而有创意的成员。

作者在预训练生成模型的文本编码器中将新概念表示为一个标记,同时求助于 CLIP 视觉语言模型来帮助指导优化过程,再将约束条件分为正约束条件和负约束条件。 引入积极约束是为了鼓励生成仍然符合大类的图像。相反,负面约束则代表了我们希望摆脱的类别中的现有成员。

同时利用问题解答模型来迭代建议更多的类别成员,将优化问题划分为若干部分,在每个分段之后,使用当前的概念标记生成一幅图像,然后查询问答模型,以文字描述图像中描绘的是给定类别中的哪一个成员。通过这种技术,可以将当前概念 “投射 ”到现有类别成员的空间中,因为每个成员都已经有了描述它的唯一单词。然后,新词将被添加到负面约束集中,这样能够逐渐摆脱不断增长的类别成员集,从而产生更具创造性的世代。 最后,作者展示了所提出的先验约束也可用于混合已生成的概念,并通过使用一组从已生成概念中衍生出来的正向约束来创建新的混合体。这样就可以扩展和发展新生成的概念。通过定量和定性评估,作者展示了先验约束和迭代优化方案的灵活性,显示了其在创造性生成方面的有效性。

三、算法提出

与 “文本反转”类似,作者通过优化一个新的嵌入向量 v∗ 来实现这一目标,该向量代表作者在预训练的文本到图像模型的文本条件空间中的新概念。对学习到的表征施加一系列约束,其中嵌入 v∗ 被优化为与给定的大类别相似,同时又与该类别的现有成员不同。选择使用一组 “先验约束 ”来应用这一优化方案。在训练过程中会逐渐扩大约束条件集,鼓励随着时间的推移创造出更多独特的概念。下面是完整过程的推理图示。

作者将先验约束定义为一组应用于扩散先验模型输出空间的损失。这些约束条件分为一组正约束条件 Cpos 和负约束条件 Cneд,其中每个约束条件都使用文本标记来定义。例如,要生成 “宠物 ”类别的新成员,正约束可以简单定义为 Cpos = {pet},负约束为 Cneд = {cat, dog,…, hamster}。 考虑到两组约束条件,接下来要定义 v∗ 与各约束条件之间相似性的测量值。首先将 v∗ 和每个约束词 c 整合到同一个随机采样的提示模板 y 中(例如,“一张 {} 的照片”、“一幅 {} 的油画”)。每个这样的句子都可以编码成 CLIP 文本嵌入,将这一操作记为 Ey(c),并定义了一个文本约束。鉴于文本约束,定义 v∗ 相似性的一个简单方法是计算 Ey (v∗) 和每个文本约束 Ey (c) 之间的余弦相似性。

在训练过程中,作者使用 BLIP-2 来推断与当前概念最接近的词,然后将其添加到我们的约束条件中,如上图所示。

四、实验部分

下图展示了ConceptLab学习各类新颖创意概念的能力。所有结果都是通过自适应底片技术获得的,这凸显了只需改变训练种子就能生成这些不同概念的能力。 接下来,如图 6 所示,ConceptLab 可以将这些学习到的创意概念放到新颖的场景中。如图所示,这些生成包括背景修改和艺术风格,以及想象与概念相似的新创作。

五、总结

作者介绍了一种利用文本到图像扩散模型进行创意生成的新方法。作者建议使用扩散先验模型来学习属于特定大类的新概念。为了优化学习到的概念,作者引入了 “先验约束”,即一组应用于扩散先验输出的正负约束。通过将问题解答模型整合到优化过程中,作者鼓励了独特性,同时确保了与现有类别成员的区别。实验证明了作者方法的有效性,产生了视觉上多样且吸引人的概念,并进一步展示了 “先验约束 ”对概念混合的有效性。