作者:Sheyang Tang1, Armin Shafiee Sarvestani1, Jialu Xu1, Xiaoyu Xu2, Zhou Wang1
来源:CVPR 2026
时间:2026.2.23
单位:1University of Waterloo, 2City University of Hong Kong
背景
传统图像美学优化多集中在二维图像层面,例如裁剪、旋转、平移和构图调整。 这类方法只能回答“这张照片怎么裁更好”,但不能回答:
- 拍摄者应该站在哪里?
- 相机应该朝哪个方向?
- 换一个观察位置后,构图是否更好?
实际摄影和观景过程中,美学质量强烈依赖三维空间:
- 主体是否完整可见;
- 遮挡关系是否减少;
- 前景、中景、背景是否协调;
- 相机位置和朝向是否形成更好的构图。
因此,论文希望将“最佳视角推荐”从二维图像调整问题转化为三维空间中的视角优化问题。
贡献
1、论文提出了一个新的任务:稀疏观测条件下的三维感知美学视角推荐。
2、论文提出了 3D Aesthetic Field。它把二维美学模型中的审美知识蒸馏到3D Gaussian Splatting表示中,使三维场景中的不同位置、不同朝向都可以被赋予审美评分。论文认为,这个美学场可以统一二维美学感知和三维几何理解,从而建模视角之间的审美变化。
3、论文提出了一个粗到细的两阶段搜索流程。第一阶段在输入轨迹附近粗采样一批候选视角,第二阶段用梯度上升对候选视角进行局部优化,从而找到审美评分更高的视角。这个设计避免了强化学习式的高成本探索。
4、论文在RE10k和DL3DV两个数据集上进行了实验,验证了该方法在“新视角美学预测”和“最佳视角推荐”两个任务上都优于基线方法。
方法

输入
- 输入内容包括:
- 多张稀疏RGB图像;
- 每张图像对应的相机内参和外参。
几何建模分支
- Encoder 提取每张RGB图像的视觉特征。 然后使用 Multi-view Transformer 融合不同视角之间的信息。 接着通过 plane-sweep 聚合 和 单目深度线索 预测每个像素的深度:
- plane-sweep 用于多视角特征匹配;
- 单目深度线索用于补充低纹理、遮挡、反光等区域的深度估计。
得到深度后,将二维像素反投影到三维空间,生成三维高斯点的位置。 DPT Head 进一步预测每个高斯点的:颜色、透明度、形状、方向、协方差参数。
美学特征蒸馏分支
- 论文没有直接采用“渲染RGB图像 → 美学模型打分”的方式,原因是:
- 新视角RGB渲染可能存在伪影;
- 二维美学模型对像素扰动较敏感;
- 相邻视角可能出现评分不稳定。
- 因此,论文使用一个预训练二维美学模型作为 teacher,teacher 从真实图像中提取中间层美学特征,网络学习为每个三维高斯点预测一个美学 embedding。
- 每个三维高斯点不仅包含几何和颜色信息,还包含美学特征:Gaussian = 位置 + 形状 + 透明度 + 颜色 + 美学特征
视角评分
给定一个候选相机视角,系统会从该视角渲染出一张美学特征图, 这张图用于美学评分的中间特征表示, 美学特征图再输入 aesthetic decoder,输出该候选视角的美学分数。
最佳视角搜索
论文采用两阶段搜索策略。
第一阶段:粗采样
- 沿输入相机轨迹采样多个候选视角;
- 在候选点附近加入小范围平移和旋转扰动;
- 对所有候选视角进行美学评分;
- 选取得分最高的若干视角进入下一阶段。
第二阶段:梯度上升优化
- 将相机位置和朝向作为可优化变量;
- 优化内容包括:
- 三维位置;
- yaw;
- pitch;
- 不优化 roll,因为普通摄影中相机横滚角通常不是主要调整项。
- 通过梯度上升不断提高美学评分,最终得到推荐视角。
实验
实验设置
- 使用两个数据集:
- RealEstate10k(RE10k);
- DL3DV。
- 输入设置:
- 使用2、4、6个输入视角;
- 预测未见视角的美学质量。
- 骨干网络:
- 使用 DepthSplat 作为前馈式 3D Gaussian Splatting backbone。
- 美学 teacher:
- 使用预训练美学模型 VEN。
- 主要评价任务:
- 新视角美学预测;
- 最佳视角推荐;
- 梯度优化有效性;
- 消融实验。
- 主要评价指标:
- PLCC:预测分数与真实分数的线性相关性;
- SRCC:预测分数与真实分数的排序相关性;
- VEN / SAMPNet 美学评分。
实验结果

- 论文首先评估模型是否能够准确预测未见视角的美学质量。实验结果显示,论文方法在不同输入视角数量下都明显优于 RGB-scoring baseline。以 4 个输入视角为例,在 RE10k 上,RGB baseline 的 PLCC / SRCC 为 0.657 / 0.633,而论文方法提升到 0.796 / 0.758;在 DL3DV 上,RGB baseline 为 0.513 / 0.481,论文方法提升到 0.722 / 0.682。这说明论文提出的特征级 3D Aesthetic Field 相比直接渲染 RGB 图像再评分,更能稳定预测新视角的美学质量。

- 在最佳视角推荐实验中,论文比较了多种方法,论文方法在 RE10k 和 DL3DV 上都取得了更高的 VEN / SAMPNet 美学评分。例如在 RE10k 数据集上,使用 2 个输入视角时,论文方法的 VEN / SAMPNet 评分达到 1.89 / 2.40,高于直接 RGB baseline、平移、旋转以及其他单图视角调整方法;使用 6 个输入视角时,论文方法进一步达到 2.20 / 2.49。这说明论文方法推荐出的视角在构图质量、主体呈现和画面平衡方面更优。

- 除了数值指标,论文还通过定性结果展示了不同方法推荐视角的视觉差异。单图调整方法通常只能围绕原始图像做有限的平移、旋转或裁剪,因此容易受到原始视角限制。例如,如果原图中存在遮挡物、主体偏移或空间关系不协调,二维调整方法很难真正改变观看角度。
- 相比之下,论文方法能够在三维空间中重新选择相机位置和观察方向,因此可以获得更加平衡的构图。说明3D Aesthetic Field 的优势不只是评分更高,更重要的是它具备真正的三维空间搜索能力。

- 结果可视化了不同候选视角在三维空间中的美学分布。它说明同一场景在不同位置和朝向下具有不同的审美质量,视角推荐本质上不是二维图像调整,而是三维空间中的连续价值搜索问题。

- 结果展示了梯度上升优化过程。论文方法能够逐步调整相机位置和观察方向,使画面构图更加协调;而基于 RGB 的优化由于分数波动较大,容易出现不稳定或不合理的更新。说明 3D Aesthetic Field 不仅能为视角打分,还能提供可优化的方向
局限与启发
局限
- 方法依赖相机位姿,需要已知或估计每张输入图像的相机参数;
- 三维重建质量会影响最终推荐效果;
- 如果输入视角覆盖不足,系统可能无法发现未被观测区域中的更优视角。
启发
论文为本项目提供了一种更具启发性的研究范式:将观景体验从离散点位推荐提升为三维空间中的可计算、可优化、可解释的视角价值建模问题。 在此基础上,本项目可以进一步把视觉美学、文化知识推理和实时导览决策结合起来,形成“看什么、在哪里看、为什么这样看、如何引导游客移动”的完整技术闭环。