视觉位姿估计新SOTA!无纹理、复杂光照、大视角变化全不怕!

编程文章jaq1232025-06-30 18:24:2824A⁺A^-

来源：3D视觉工坊

添加小助理：dddvision，备注：特征匹配，拉你入群。文末附行业细分群

0. 这篇文章干了啥？

现有位姿估计方法主要是建立3D点和图像中的2D像素级关键点之间的稀疏匹配关系（FM），然后通过基于RANSAC的PnP来估计相机姿态。但是特征匹配在复杂的光照条件、季节性变化和视角变化容易失败。

这篇文章提出了一种新的基于特征匹配的半稠密视觉定位（DeViLoc）方法，旨在预测稠密的2D-3D匹配关系以实现稳健和准确的定位。与现有的仅依赖于预先存在的3D点的FM方法相比，DeViLoc直接将半稠密的2D-2D匹配转换为2D-3D匹配。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Learning to Produce Semi-dense Correspondences for Visual Localization

作者：Khang Truong Giang, Soohwan Song, Sungho Jo

机构：KAIST、东国大学

原文链接：https://arxiv.org/abs/2402.08359

代码链接：https://github.com/TruongKhang/DeViLoc?tab=readme-ov-file

2. 摘要

这项研究解决了在夜间、恶劣天气和季节变化等苛刻条件下进行视觉定位的挑战。尽管许多先前的研究集中于提高图像匹配性能，以促进图像之间可靠的密集关键点匹配，但现有方法往往严重依赖于重建的三维模型上预定义的特征点。因此，在匹配过程中往往忽视了未观察到的关键点。因此，密集关键点匹配没有得到充分利用，导致准确度显著降低，特别是在噪声场景中。为了解决这个问题，我们提出了一种新颖的定位方法，该方法基于密集关键点匹配提取可靠的半密集二维-三维匹配点。这种方法涉及使用点推断网络将半密集二维关键点回归到三维场景坐标。该网络利用几何和视觉线索有效地从观察到的关键点中推断出未观察到的关键点的三维坐标。匹配信息的丰富性显著增强了相机姿态估计的准确性，即使在涉及嘈杂或稀疏三维模型的情况下也是如此。全面的评估表明，所提出的方法在具有挑战性的场景中优于其他方法，并在大规模视觉定位基准测试中取得了竞争性的结果。源代码将提供。

3. 效果展示

DeViLoc和现有方法（HLoc+LoFTR）的2D-3D匹配过程对比。 现有方法具有密集和精确的3D模型，但在2D-3D估计过程中剔除了很多内点。相反，DeViLoc将2D-2D匹配转换为2D-3D匹配，在有噪声3D输入和夜间条件下甚至生成了大量匹配。因此，DeViLoc基于密集匹配信息产生了稳健且准确的定位结果，特别是在夜间情景、恶劣天气和季节变化等挑战性条件下。

传统构建的点云之间的比较， 包括FM ( SIFT)，稀疏FM ( SP + SG)和无检测器Fm ( Loftr)。与精确( SP + SG )或密集( LoFTR )输入相比，DeViLoc能够很好地处理基于SIFT的含噪输入，从而获得具有竞争力的性能。

DeViLoc对多对图像估计的2D - 3D匹配关系示意图。观察到的2D关键点用黑色标记，参考关键点用橙色(低置信度)或绿色(高置信度)表示。

4. 主要贡献

（1）提出了一种新颖的视觉定位方法，通过直接将半稠密的2D-2D匹配转换为2D-3D匹配，利用丰富的匹配信息。这种方法显著提高了相机姿态估计的准确性，特别是在有噪声或稀疏3D模型的场景中。

（2）引入了一种网络架构，点推断网络（PIN），旨在直接将2D关键点回归到3D点。该网络有效地利用了未观察到的和观察到的关键点之间的几何和视觉连接，确保了对3D信息以及相关不确定性的准确估计。

（3）对提出的方法在各种数据集上进行了全面评估。结果表明，我们提出的方法在挑战性场景中优于其他最新方法，并在大规模视觉定位基准测试中取得了竞争性的表现。

5. 具体原理

DeViLoc包括两个主要组成部分：1）点推断网络（PIN）和2）基于置信度的点聚合（CPA）模块。PIN将半稠密的2D-2D匹配转换为2D-3D匹配，通过直接将所有2D关键点（包括观察到的和未观察到的）回归到3D场景坐标来实现。这个过程涉及从观察到的点中编码场景几何到潜在向量，并通过注意力层将3D信息传播到未观察到的位置。接下来，CPA模块从多个查询-参考对中聚合2D-3D匹配，识别与多个匹配视图中相同的2D关键点对应的一致且高度自信的3D点。这一步有效地从密集匹配中去除了异常值，并且经过滤的2D-3D匹配加速了基于RANSAC的姿态估计。最终，DeViLoc显著增加了用于定位的准确的2D-3D匹配的数量。

DeViLoc概述。 首先，使用特征匹配器为每一对查询参考图像检测2D - 2D匹配。后，PIN模块根据参考图像中的观测数据为所有检测到的2D关键点推断一组3D坐标。最后，CPA模块整合所有查询-参考对之间获得的所有2D - 3D匹配。

点推断网络(PIN)的原理。 网络开始学习所有关键点( Ko emb、Kr emb)和观察深度( Do emb )的嵌入。随后，注意力层被用于几何和视觉引导。最后，利用学习到的潜码( Prlc )对3D点连同置信度值进行回归。

6. 实验结果

7scenes和Cambridge landmarks的评估。 度量指标为中值平移( cm )和旋转( o )误差。其中每个场景都训练了基于SCR的红色高亮显示方法。最好和次好的结果用粗体和青色标出。DeViLoc虽然只在MegaDepth上训练，但总体上优于其他方法。

在长期基准上评估结果。 比较了将稳健的FM模型集成到HLoc或使用PixLoc来改进HLoc姿态的各种复杂基线。DeViLoc取得了最先进的性能，特别是在CMU数据集(以粗红色标示)中极具挑战性的定位中。

提出的PIN和CPA的有效性( top )，特征匹配器的影响( middle )，以及top - k图像检索的消融( bottom )对MegaDepth的影响。 默认使用top - 3检索。除Model - A外，其余均采用SIFT输入进行测试。P为模型参数，M为2D - 3D匹配。

7. 总结 & 限制性

这项工作介绍了一个基于稳健结构的视觉定位框架，它最小化了对精确重建三维点云的依赖。即使面对稀疏和嘈杂的三维输入，也表现出稳定的性能。为了实现这一点，作者提出了两个新颖的模块：点推断网络和基于置信度的点聚合。因此，该方法生成了大量的二维-三维匹配关系，在挑战性条件下实现了显著的增强，包括无纹理场景、大规模环境以及天气和季节的变化。然而，这项方法的计算效率存在局限性。随着查询和参考图像之间匹配对的数量增加，运行时间会变慢。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

下载

在公众号「3D视觉工坊」后台，回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文；巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件；相机标定、结构光、三维重建、SLAM，深度估计、模型部署、3D目标检测等学习资料。

3D视觉方向交流群成立啦

目前工坊已经建立了3D视觉方向多个社群，包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向，细分群包括：

[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

[无人机]四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

大家可以添加小助理：dddvisiona，备注：加群+方向+学校|公司, 小助理会拉你入群。

点击这里复制本文地址以上内容由jaq123整理呈现，请务必在转载分享时注明本文地址！如对内容有疑问，请联系我们，谢谢！

pixpin下载

上一篇：利用GPT4-V及Langchain实现多模态RAG

下一篇：解决了!iOS 16.6.1 通话录音，不再自动操作

视觉位姿估计新SOTA!无纹理、复杂光照、大视角变化全不怕!

相关文章