202501论文研读-Edicho: Consistent Image Editing in the Wild

论文来源:CVPR2024

作者单位:香港科技大学

作者:白庆燕、欧阳浩

一、论文主要工作

作者引入一种新颖的、免训练的、即插即用的方法,即通过图像之间的显式对应来增强图像编辑的一致性。该方法在编辑前用稳健的对应提取器预测输入之间的对应关系,然后利用神经网络中的自注意力机制,有效地将特征从源图像转移到目标图像。同时进一步修改无分类器引导(CFG)以合并对应信息,从而在不降低图像质量的同时提高编辑一致性。

二、论文贡献

1.作者在扩散模型的去噪过程中引入了显式对应,以实现一致的图像编辑。


2.与之前实现一致性图像编辑的方法不同,作者增强了自我注意机制并修改了无分类器指南以合并对应信息,从而提高编辑一致性,而不会降低图像质量。


3.该方法由于其免训练和即插即用的性质,能够在各种模型和不同任务中运行,从而实现全局和局部编辑。

三、方法

请参阅标题

1.显式对应预测

作者首先从显式与隐式对应之间的匹配比较开始。显式提取器通过单通道转发预测来自输入图像的对应关系,并将此预测应用于所有目标网络层和降噪步骤。 在具体操作中,提取器与 DIFT 中一样实例化。为了进一步优化效率,作者实施了一项策略来避免对对应关系进行冗余计算,尤其是在多次处理相同的图像或图像组时,作者通过使用 MD5 对每个图像组进行编码来实现这一点。

2.通过通信进行注意力操纵

在扩散模型生成过程中,中间特征x在自注意力self-attention块中,首先被投影到queries、keys和values中,接着,注意力D就可以通过自主计算和评估这些特征表示的相关性来计算,而作者收到显式和隐式对应之间的比较的启发,使用明确的对应关系来引导自注意力,实现连贯的编辑。

3.无分类器的对应指导

为了在编辑后的图像上保持更精细的一致性,作者从注意力特征控制中更进一步,专注于无分类器指南 (CFG) 中的噪声潜在值. 具体来说,作者扩展了传统的 CFG 框架,通过利用显式对应来促进多张图像的同步编辑,并提出了 Corr-CFG。 NULL 文本反转表明优化无条件词嵌入可以实现精确的图像反转和语义编辑。 受这种方法的启发,作者的主要目标是在一致的编辑过程中保持预训练模型强大的生成先验的完整性。 为了实现这一点,作者建议只操作z在通信指导下的无分类器 (CFG) 框架内。

四、实验

1.实验设置

使用 Stable Diffusion作为基本模型并采用 BrushNet和 ControlNet作为编辑的参考网络。 我们采用 DDIM scheduler 并执行 50 个步骤的降噪。 默认情况下,所提出的通信引导降噪策略从4t⁢h自40t⁢h步骤和第八个注意力层来确保一致性并保持强大的生成先验。

2.评估

定性评估

Refer to caption
Refer to caption

定量评估

3.消融实验

为了验证引入的通信引导注意力操纵(Corr-Attention)和通信引导 CFG (Corr-CFG)的有效性,作者通过分别禁用它们中的每一个并测试一致编辑的任务来进行消融研究。当提议的对应引导的注意力操作(Corr-Attention) 被禁用时,扩散模型依赖于隐式注意力对应来保持一致性。

Refer to caption

五、总结

1.作者提出了Edicho,这是一种新颖的免训练方法,通过利用图像之间的显式对应关系,在各种图像之间进行一致的图像编辑。

2.方法通过将对应信息集成到降噪过程中来确保编辑之间的一致性,从而增强了自我注意机制和无分类器指导计算。

3.该方法的即插即用特性允许无缝集成到各种模型中,并适用于各种任务。