202505 论文研读-PSF-4D: A Progressive Sampling Framework for View Consistent 4D Editing

来源：韦恩州立大学、中佛罗里达大学

作者：Hasan Iqbal, Nazmul Karim

一、论文主要工作

为了将图像内容编辑功能扩展到4D场景，用于4D编辑的渐进采样框架（PSF-4D）通过直观地控制前向扩散期间的噪声初始化来确保时间和多视图的一致性。为了实现时间一致性，PSF-4D设计了一个相关的高斯噪声结构，该结构随着时间的推移链接帧，允许每个帧都有意义地依赖于先前的帧。此外，为了确保视图之间的空间一致性，PSF-4D实现了跨视图噪声模型，该模型使用共享和独立的噪声组件来平衡不同视图之间的共性和不同细节。为了进一步增强空间连贯性，PSF-4D 整合了视图一致的迭代优化，将视图感知信息嵌入到降噪过程中，以确保跨帧和视图的编辑保持一致。

二、论文贡献

1.利用渐进式噪声采样和迭代潜在细化技术，对文本到视频模型的核心扩散过程进行了几项简单但有效的改动。

2.通过直观地控制扩散过程中的噪声，在不同视图捕获的噪声视频帧之间建立了一致性。

3.通过引入一种仅专注于提高视图一致性的优化策略，以进一步优化已编辑的4D模型。

三、方法

1.时间一致性

由于正常情况下，跨帧的噪声独立于高斯分布绘制的恒等协方差矩阵，因此生成的视频可能包含不一致或抖动的帧过度，PSF-4D用自回归（AR）模型生成的相关噪声序列代替了这个独立的噪声。

2.多视图一致性

2.1跨视图噪声模型

不同视角的空间相干性在多视图生成中尤为重要，因此，PSF-4D首先将自回归噪声模型应用于所有视图。从未经编辑的 4D 模型开始，PSF-4D渲染多个视图，这些视图通过 VAE 编码器传递以获得相应的未编辑的潜在表示。用ε将噪声引入这些潜在资产，为通过文本到视频（T2V）模型进行处理做好准备，以文本提示和原始视图信息为条件。去噪后，通过 VAE 解码器对潜在视图进行解码，从而产生初始编辑视图。

2.2视图一致性优化

为确保更高质量的视图生成和平滑的运动，以及视图之间的空间一致性，PSF-4D将视图信息显式注入到T2V编辑管道中。

2.3视图感知位置编码

为了在微调T2V模型时区分不同的视图，需要从绝对相机参数派生的视图感知位置编码。因此，PSF-4D对相机参数进行编码，通过采用具有参数的2层MLP将生成的相机编码嵌入作为残差添加到时间中，这样做可以为T2V模型提供额外的视图感知并减少空间伪影。

四、实验

实验评估了PSF-4D进行 4D 场景编辑的示例与 Instruct 4D 到 4D （I4Dto4D）和 DyNeRF 数据集中各个场景中的原始 4D 场景进行比较。每列都提供不同的编辑提示。

五、总结

1.这篇文章提出了 PSF-4D，其虽然是用于4D编辑，但被设计为独立于底层图像编辑模型和T2V框架，使其能够与各种现成的模型轻松集成，以实现所需的编辑结果。

2.其利用渐进式噪声建模来保持时间和视图的一致性，通过引入视图一致性优化来克服噪声建模无法完全捕获复杂空间关系的缺点。