202507论文研读-Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control

来源:北京大学

作者:胡佳奎, 杨玉晓

一、论文主要工作

这篇文章提出了CVD,这是一个即插即用的模块,能够生成具有不同摄像机轨迹的视频,这些视频共享场景的相同基础内容和动态。CVD基于一种协作扩散过程设计,生成具有可单独控制的摄像机轨迹的一致性视频对。通过引入一个可学习的跨视图同步模块,利用极线注意机制实现了视频中对应帧之间的一致性。为了有效训练这个模块,本文提出了一种新的伪极线采样方案,以丰富极线几何注意力。由于缺乏用于3D动态场景的大规模训练数据,本文提出了一种混合训练方案,其中利用来自RealEstate10k的多视图静态数据和来自WebVid10M的单眼动态数据分别学习摄像机控制和动态。据本文所知,CVD是第一个能够生成具有一致内容和动态的多个视频,并提供摄像机控制的方法。通过大量实验证明,CVD确保了强大的几何和语义一致性,在性能上明显优于相关基线。

二、论文贡献

1.引入了一个新颖的模块,称为跨视频同步模块,旨在对齐不同输入视频的特征,以增强一致性;

2.提出了一种新的协作推理算法,可以将在视频对上训练的视频模型扩展到任意数量的视频生成;

3.模型在生成具有一致内容和动态的多视图视频方面表现出优异性能,明显优于所有基线方法。

三、方法

请参阅标题

1.协作视频生成

为解决结构一致性的问题,作者引入了一种新的目标,即在给定特定语义条件下,VDM能够同时生成多个结构一致的视频,并将其命名为协作视频扩散。

2.具有摄像机控制的协作视频扩散

模型设计为相机控制视频模型 CameraCtrl的扩展。该模型接收两个(或更多)带噪视频特征输入,并在一次传递中生成噪声预测。这些视频特征通过 CameraCtrl 的预训练权重,并在作者提出的跨视角同步模块中同步。该模型使用两个不同的数据集进行训练:RealEstate10K,该数据集包含主要静态场景的相机校准视频;以及 WebVid10M,该数据集包含不带姿态的通用视频。

3.跨视图同步模块

尽管在空间和时间维度上定义的操作在不同帧的不同像素之间带来了强相关性,但捕捉不同视频之间的上下文关系需要一种新的操作:跨视频注意力。受此启发,作者引入了基于极几何的跨视角同步模块,以在生成过程中揭示跨视频帧之间的结构关系,使视频在几何上对齐。

四、实验

实验对比了CameraCtrl及其与SparseCtrl 的组合、MotionCtrl及其与SVD的组合。结果表明,该方法在视频内容对齐方面具有优越性,包括闪电、海浪等动态内容。

五、总结

作者提出了CVD,一种促进协作视频生成的新框架。它确保视频实例之间的信息无缝交换,同步内容和动态。此外,CVD提供相机定制功能,以便使用多个相机全面捕捉场景。CVD的核心创新在于其利用重建pipeline中推导出的极几何作为约束。这种几何框架微调了预训练的视频扩散模型。通过整合动态的、单视角的野外视频,训练过程得到了增强,从而保持了多样的运动模式。在推理过程中,CVD采用多视角采样策略,促进视频间的信息共享,从而实现统一视频输出的“协作扩散”效果。