来源:CVPR
作者:Zilong Chen, Feng Wang, Yikai Wang
单位:北京国家信息科学研究中心,清华大学计算机科学与技术系
一、问题及目标
①现阶段大多数现有的分数蒸馏采样SDS和体积渲染的文本转 3D 的方法都存在几何不准确的问题。
②本文提出了 GSGEN,这是一种采用高斯分布(一种最新的表示方法)进行文本到3D 生成的新颖方法。本方法采用渐进优化策略,其中包括几何优化阶段和外观细化阶段。
③本文提出利用Point-E和3D SDSloss优化3DGS,通过外观细化阶段有效抑制异常点,采用紧凑稠密化方法处理SDS损失的随机性。实验中,Point-E用于初始化并结合几何和外观优化,提升3D模型的质量。
二、本文贡献
①本文提出了GSGEN,一种使用3D高斯函数作为表示的文本到3D生成方法。通过结合直接几何先验,强调了Gaussian Splatting在文本到3D生成中的独特优势。
②本文引入了一种两阶段优化策略,该策略首先利用 2D 和 3D扩散的联合引导,然后在几何优化中形成连贯的粗糙结构;然后通过基于紧凑性的外观细化致密化来丰富细节。
③我们根据各种文本提示验证GSGEN。实验表明,我们的方法可以生成具有精确几何形状和增强保真度的 3D图形 。尤其是GSGEN 在捕捉高频成分(如羽毛、复杂纹理的表面、动物毛皮等)方面表现出卓越的性能。

提出的 GSGEN的概览,本文的方法旨在生成具有精确几何形状和精致外观的 3D 资产。GSGEN 首先利用 Point-E 初始化高斯函数的位置。优化分为几何优化和外观细化,以满足连贯几何结构和详细纹理之间的平衡。
Score Distillation Sampling
通过基于分数蒸馏采样的 2D 预训练图像扩散先验来优化 3D 表示,梯度更新如下图所示:

其中 xt、y 和 t分别表示噪声图像、文本嵌入和时间步长。这个估计分数在指导梯度更新方面起着关键作用。€是高斯噪声,w(t)是加权函数。
本文的方法将 2D 和3D 级别的分数蒸馏采样与 3D GS与不同的扩散模型相结合,生成具有详细外观和 3D一致几何形状的 3D 资产。
3D Gaussian Splatting
在这项研究中,本文将高斯分布的应用扩展到文本到3D生成,并引入了一种新颖的方法,该方法通过集成直接3D扩散先验来利用高斯分布的显式性质,强调3D高斯作为生成任务的基本表示的潜力。
对立体图形进行渲染:

其中,α_i=o_ie^−□1/2(p−μ_i)^T∑_i^−1▒(p−μ_i)指的是p点的不透明度,c_i、o_i、μ_i和∑_i分别第i个高斯的颜色、不透明度、位置和协方差,在此处键入公式。 N表示该图块中的高斯分布。
三、方法
本文的目标是生成具有精确几何形状和精致细节的3D内容。为了实现这一目标,GSGEN 利用3D高斯作为表示,因为它可以灵活地结合几何先验并具有表示高频细节的能力。基于点云可以被视为一组各向同性高斯分布的观察,本文建议将 3D SDS 损失与预训练的点云扩散模型相结合,以形成 3D 一致的几何形状。
Geometry Optimization
Janus problem:许多文本转 3D 方法遇到了对多个视图过度拟合的重大挑战,导致生成的立体图形具有多个面和折叠的几何形状 。
①使用3D高斯的几何形状可以直接通过点云先验进行校正。这对于使用NeRF的方法是不行的,因为他们的几何形状是用隐式密度函数表示的。
②使用point-E进行引导(一种预训练的文本到点云扩散模型)
几何优化阶段的损失总结为以下等式:

其中pt和xt代表噪声高斯位置和渲染图像,w和ε指相应的权重函数和高斯噪声。
Appearance Refinement
虽然 3D 先验的引入确实有助于学习更合理的几何形状,但是其仍会干扰外观的学习。因此,本文采用了另一种外观细化阶段,仅利用先验的2D 图像迭代地细化和致密化高斯分布。

本文在确定分数蒸馏采样下的空间梯度的适当阈值时遇到了挑战。由于SDS损失的随机性,采用小的阈值很容易被一些随机的大梯度误导从而产生过多的高斯,而大的阈值会导致外观模糊。
为了解决这个问题本文提出了一个基于紧凑性的致密化作为具有大阈值的基于位置梯度的分割的补充。具体来说,对于每个高斯,我们首先用 KD-tree获得它的K个最近邻。然后,对于每个邻居,如果高斯与其邻居之间的距离小于它们的半径之和,则将在它们之间添加一个半径等于残差的高斯。

外观细化阶段的损失函数总结如下:

其中sg(·)表示停止梯度操作,pi和oi分别表示第i个高斯的位置和不透明度,λSDS, λmean and λopacity are 损失权重。
Initialization with Geometry Prior
已有研究表明合理的几何初始化十分重要,使用简单模型进行初始化可能会导致3D对象的退化。为了克服这个问题,我们选择使用生成的点云或用户提供的 3D形状(网格或点云)来初始化高斯的位置。在一般文本到 3D生成的背景下,我们采用文本到点云扩散模型 Point-E,根据文本提示生成粗略几何图形。
实验结果

总结与思考
当提供的文本提示包含复杂的场最描述或复杂的逻辑时,由于 Point-E 和StableDiffusion 中使用的 CLIP 文本编码器的语言理解能力有限,GSGEN 往往会产生不令人满意的结果。此外,虽然结合 3D 先验缓解了Janus 问题,但它远未消除潜在的退化,特别是当文本提示在引导扩散模型中存在极大偏差时。
近来,gaussian splatting在3D编辑方面大放异彩,基于其进行3D的涂装以及编辑能够具有深入研究的前景。