作者:Changming Xiao、Qi Yang
单位:清华大学
来源:PR
时间:2023
一、研究目标
①利用从 CLIP 等预训练多模态模型中学到的丰富知识对于文本引导图像编辑是有效的,但大多数方法需要针对不同的提示训练单独的模型,并且由于缺乏空间解缠结,不相关的区域在编辑后经常会被更改。
②本文提出了一种新颖的框架,可以根据一个模型中的不同提示编辑不同的图像。
③采用基于区域的空间注意力机制来明确保证编辑的局部性。
④主要在人脸领域的实验验证了我们框架的可行性。
二、相关问题
①现有的许多文本引导的图像编辑方法(如StyleCLIP、FEAT等)在处理不同文本提示时,通常需要为每个提示或样本单独训练一个模型。这不仅增加了计算成本和复杂性,还限制了这些方法的可扩展性和实用性。
②在现有方法中,尽管生成的图像能够满足目标属性,但往往会导致未提及的属性同时发生变化。例如,在编辑头发颜色时,可能会无意中改变面部表情或其他不相关的区域。这是因为当前的方法缺乏有效的空间解纠缠机制,无法明确控制编辑操作的具体区域。
③一些尝试实现局部编辑的方法(如FEAT)虽然使用了空间注意力图,但由于需要平衡不同的损失函数,导致训练过程不稳定,难以扩展到多文本设置。
④实际应用中,用户可能希望对图像进行多次编辑(如顺序编辑)或者只对特定区域进行风格迁移。然而,现有方法在这方面的表现并不理想,难以满足这些需求。
三、提出的方法
①提出了一种新的框架:该框架能够在单一模型中稳定地训练针对多文本提示的图像编辑任务,解决了现有方法需要对每个新文本或图像进行单独优化的问题。
②引入了基于区域的注意力机制:通过这种机制可以明确保证编辑操作的局部性,避免不相关的区域被改变。这种方法利用了StyleGAN潜在空间中的语义属性,实现了更精确的局部编辑。
③展示了实际应用的可能性:如顺序编辑和区域风格迁移等,这些应用在现有工作中难以实现。

模型概述
映射模块
将输入提示的 CLIP 编码定义为 h,将 StyleGAN2 第 i 层的样式代码定义为 si。映射模块的目的是获取修改后的样式代码ui = Mapi(si, h)。
首先,通过两层全连接(FC)网络 Fi ,将 h 转换为条件代码 c。再通过一个单层FC网络将s_i转变为s_i^t。接下来,我们连接 s_i 和 c 并使用另一个单层 FC 网络将它们转换为修改后的样式代码u_i^init。最后,我们采用截断技巧[5]来防止样式代码偏差太大:

其中α是控制编辑程度的截断超参数。
映射模块 Mapi 的可训练部分是全连接层。第 i 层映射模块的计算过程如下:

注意力模块
注意力模块 Attn 将 StyleGAN2 图层的特征作为输入,并输出单通道特征图作为空间注意力。即将生成器第 i 层的特征定义为

其中 Ci 表示通道数,Hi × Wi 表示分辨率。每层应用1×1调制卷积层 Mi来变换特征图。
为了将分层注意力图整合在一起,我们将每个 ai 插值到一定的分辨率 H × W 以获得
a_i^∗ ∈ RC×H×W 。然后,来自不同层的 a_i^∗ 可以沿着通道维度连接,并将它们馈送到最终的 1 × 1 调制卷积层 Mfin,然后是 sigmoid 激活层,以产生初始空间注意力图 a ∈ R1×H×W 。
基于区域的注意力机制
初步实验表明训练通常不稳定,即使对于单文本也是如此。本文将其归因于注意力带来的额外优化自由度。模型现在有两种选择来减少损失:更改样式代码或更改编辑区域,模型通常很难在它们之间找到平衡。因此,本文提出了一种从结构化区域中进行选择的方法,而不是从整个图像开始,这样可以让模型更容易地找到一条好的优化路线。
更确切地说,某一层的特征图的维度为 C × H × W,其中 C 是通道数,H × W 是空间维度。 收集 N 个样本并对特征进行扁平化处理、我们可以得到 N × H × W C 维向量,并对这些向量应用 k-means 算法。
至于本文的方法,本文事先使用100个样本对特征进行聚类。 在处理新图像时,可以根据存储的聚类中心分割语义区域,本文从多个语义区域中选择编辑区域,而不是整个像素空间。 本文计算一个语义区域的平均注意力值,并将其作为该区域所有位置的新注意力值。 然后通过聚类操作,从初始注意力图 a 得到聚类空间注意力图 a∈R1×H×W 。
四、研究结论与创新


五、总结思考
总结
论文介绍的方法通过结合文本指导和基于区域的注意力机制,在文本引导的图像编辑任务中取得了显著进展。它不仅提高了编辑的准确性和效率,还扩展了该技术的应用范围,使其能够处理更多样化的编辑需求。
此研究对于希望在不改变其他部分的情况下精确编辑图像特定区域的应用场景特别有价值,比如数字艺术创作、照片编辑软件等。
思考
本文的方法在局部编辑以及顺序编辑方面取得了一定的进展,通过本文提出的方法能够有效精确的编辑想要编辑的部位,在研究值得进行借鉴