202506 论文研读-StableVideo: Text-driven Consistency-aware Diffusion Video Editing

来源：ICCV2023

作者：Wenhao Chai，Gaoang Wang

一、论文主要工作

基于扩散的方法可以生成逼真的图像和视频，但是他们很难在视频中编辑现有对象，同时保留其外观随着时间的流逝。这样可以防止在实际情况下将扩散模型应用于自然视频编辑。作者通过将时间依赖性引入现有文本驱动的扩散模型来解决此问题，这使他们能够为编辑的对象生成一致的外观。具体而言，作者为扩散视频编辑开发了一种新颖的框架间传播机制，该机制利用分层表示的概念将外观信息从一个框架传播到另一个框架。然后，作者基于这种机制（即StableVideo）建立了一个文本驱动的视频编辑框架，该机制可以实现一致性视频编辑。

二、论文贡献

1.帧间传播，获得一致的目标外观。

2.图像聚合，获得连贯的运动和几何。

三、方法

1.基于神经分层图集的视频分解

作者采用预先训练的NLA模型来传播编辑的内容，以确保目标对象和场景可以保持整个视频中的均匀外观和动作。 NLA的概念是将输入视频分解为分层表示形式，即前景地图集和背景地图集，它们在全球范围内分别总结了前景和背景的相关像素。

2.基于扩散的编辑

实际的编辑过程使用扩散模型Gb和Gf作为背景和前景。Gb直接编辑背景图集，Gf编辑前景关键帧:

Ab_edit = Gb(Ab, text_prompt) //编辑背景图集

Ei = Gf(Fi, text_prompt) //编辑关键帧

与严重扭曲的图集相比，在关键帧上工作提供了更可靠的编辑。

3、帧间传播前景编辑

为了保证关键帧编辑的时间一致性，提出了一种帧间传播机制。对于第一帧F0，扩散模型Gf正常编辑:E0 = Gf(F0, text_prompt, structure_guidance)。对于随后的帧Fi，编辑的条件是文本提示和前一帧Ei-1的外观。

4、Atlas聚合

编辑后的关键帧使用简单的3D CNN聚合成统一的前景图集。该网络被训练到最小化关键帧和它们从聚合图谱的反向映射之间的重建误差。这种紧密耦合确保编辑被合并到一个暂时一致的图集中。最后，将编辑后的前景和背景图集进行映射和合成，得到最终编辑后的视频帧。使用原始的前景分割蒙版来混合图层。

四、实验

实验包含复杂动作的自然视频进行了合成、风格转移、背景替换等多种视频编辑场景的演示。定性和定量实验均表明StableVideo优于现有的基于扩散的方法。

五、总结

1.为了解决前景对象编辑中扩散模型的一致性问题，作者提出了一个框架传播机制和ATLAS聚合网络，并进行了广泛实验证明其有效性。

2.试验也验证了所提出的传播和聚合模块的贡献——与独立编辑相比，关键帧传播大大提高了外观一致性。