202507 论文研读-Wonder3D : Single Image to 3D using Cross-Domain Diffusion

单位:香港大学
来源:CVPR
时间:2024

一、研究背景及意义

对于单张图生成3D网格的任务,最近基于分数蒸馏采样 (SDS) 的方法能从2D扩散先验中获得3D几何信息,但是对每个形状进行优化很耗时,还有几何形状不一致的问题;快速网络推理能够直接生成3D信息,但是结果质量低且缺乏3D几何细节。因此,本文提出Wonder3D,只需 2-3 分钟即可从单视图图像重建高度详细的纹理网格。Wonder3D首先通过跨域扩散模型生成多视图一致的法线贴图及其相应彩色图像,然后引入几何感知法线融合算法实现快速、高质量的重建。

二、研究思路及方法

本文贡献

(1)跨域切换器。引入的域切换器允许扩散模型在不显著修改原始模型的情况下,生成法线贴图或彩色图像。
(2)跨域关注。利用跨域注意力机制协助两个域之间的信息交换,提高一致性和质量。这种机制促进了跨不同域的信息感知,使我们的方法能够恢复高保真几何。
(3)几何感知法线融合。为了从生成的视图中稳定地提取表面,提出了一种几何感知法线融合算法,能够重建干净、高质量的几何形状。

方法

给定单个图像,Wonder3D 以输入图像、CLIP 模型生成的文本嵌入、多个视图的相机参数和域切换器作为条件,以生成一致的多视图法线贴图和彩色图像。随后,Wonder3D 采用创新的法线融合算法,从 2D 表示中稳健地重建高质量的 3D 几何图形,从而产生高保真纹理网格。

(1)一致的多视图生成
通过将原始自注意力层扩展为全局感知层,从而允许连接到注意力层中的其他视图。来自不同视图的键和值相互连接,以促进信息交换,生成一致的多视图彩色图像和法线贴图。

(2)跨域扩散
由于目前的2D扩散模型是为单域设计的,本文提出域切换器 S,首先通过位置编码进行编码,然后与时间嵌入连接,将组合表示注入稳定扩散模型的 UNet 中。为了让两个domain之间一致,加了一个cross-domain attention,让生成的几何形状和外观对齐。

(3)纹理网格提取
通过优化有向距离场(SDF),提取显式3D几何。由于现有的SDF-based重建方法适用于真实获得的图像,而生成的normal maps和color images可能在一些像素上有偏差,导致优化得到畸变的几何。通过融合多种损失项,确保生成的3D表面在几何一致性、细节保真度和稳定性上达到最优。

三、结果

四、结论

本文提出的Wonder3D旨在从单视图图像中高效生成高保真纹理网格。实验结果表明,我们的方法保持了良好的效率和稳健的泛化,并提供了高质量的几何形状。