202410论文研读-From a Bird’s Eye View to See: Joint Camera and Subject Registrationwithout the Camera Calibration

论文来源:CVPR2024

作者单位:天津大学、中国科学院深圳先进技术研究院

作者:钱泽坤; 韩瑞泽

一、论文主要工作

本文提出了在鸟瞰视角(BEV)中无需预先给定相机校准的多视角相机和目标配准。这将多视角目标配准问题提升到一个新的无需校准的阶段,从而极大地缓解了许多实际应用中的限制。其唯一的输入是来自不同第一人称视角first-person views(FPVs)的多个RGB图像,没有BEV图像和FPVs的校准,而输出是从所有视角聚合到一个统一平面的图像,包含目标和相机在BEV中的位置和方向。另外,本文作者收集了一个具有丰富标注的大规模合成数据集用于训练和评估,以及一个真实数据集用于跨领域评估。

二、论文贡献

1.首次研究了无需预给定相机校准或真实 BEV 图像的多视图多人体场景的相机和人体配准。


2.提出了一个新颖的解决方案,集成了基于深度网络的 VTM 和基于多视图几何的 SAM。


3.构建了一个新的大规模合成数据集,并通过关键模块的实验结果展示了所提方法的优越性和有效性。跨域研究在真实数据集上验证了他们方法的泛化能力。

三、方法

1.视图变换子检测模块VTM

本文开发了一个使用轻量级全连接(FC)结构并具有三个头部的LocoNet,在此之前应用一个现有的人体姿态检测器PifPaf从原始RGB图像中预测每个人的2D骨骼关节。在末端应用多层感知器MLP来预测每个人的位置和面部朝向。

2.基于几何变换的空间对齐模块SAM

由于人体位置和面部方向在真实世界的 3D 坐标系中是唯一的,可用于对齐相机以生成多个 2D 图像。在由不同的第一人称视角 (FPV) 图像生成的人体位置和面部方向的 BEV 地图中,我们可以通过对齐相应的人体位置和面部方向(作为对齐点)来获得 BEV 中的摄像头姿势

3.基于质心距离的候选者选择策略

为了匹配来自多个视图的目标,作者在统一的 BEV 中创建了一个人的空间距离矩阵 M_dis 和角度差异矩阵 M_ang,它们测量来自不同视图的所有目标的距离和角度差异。

四、实验

1.相机配准的效果比较

2.目标物的配准效果比较

五、总结

1.在本文中,作者研究了 BEV 中多视角相机和主体配准任务的新问题,无需相机校准。针对这个问题,作者开发了一种可以同时处理这两项任务的新方法。

2.具体来说,所提方法采用端到端框架,充分利用基于深度网络的外观信息和基于多视图几何的空间知识,优势互补。

3.作者还创建了具有各种设置和丰富注释的新合成数据集和真实数据集。实验结果表明,该方法具有优异的性能。