【文献阅读】GaussReg: Fast 3D Registration with Gaussian Splatting

技术文档

摘要

点云配准是大规模三维场景扫描和重建的基础问题。在深度学习的帮助下，配准方法已经有了很大的发展，达到了一个接近成熟的阶段。随着神经辐射场(Neural Radiance Fields, NeRF)的引入，它以其强大的视图合成能力成为最受欢迎的3D场景表示方法。对于NeRF表示，大规模场景重建也需要对其进行配准。然而，这一课题极度缺乏探索性。这是由于用隐式表示对两个场景之间的几何关系建模的固有挑战。现有方法通常将隐式表示转换为显式表示，以便进一步配准。

最近引入了高斯溅射(GS)，采用显式三维高斯。该方法在保持高渲染质量的同时显著提高了渲染速度。给定两个具有明确GS表示的场景，在本工作中，我们探索了它们之间的3D配准任务。为此，我们提出了一种新的从粗到精的框架GaussReg，它既快速又准确。粗配阶段遵循现有的点云配准方法，对来自GS的点云进行粗配准估计。我们进一步提出了一种图像引导的精细配准方法，该方法可以呈现来自GS的图像，为精确对准提供更详细的几何信息。为了支持综合评估，我们用从ScanNet数据集中获得的1379个场景精心构建了一个场景级数据集ScanNet-GSReg，并收集了一个名为GSReg的野外数据集。实验结果表明，我们的方法在多数据集上达到了最先进的性能。我们的GaussReg比HLoc (SuperPoint作为特征提取器，SuperGlue作为匹配器)快44倍，具有相当的精度。

主要贡献（创新点）

第一个探索考虑高斯飞溅表示的3D场景配准。
设计了一种新颖的从粗到精的管道，充分考虑了3D高斯的特点，既快速又准确。
新提出了一种图像引导的精细配准，该配准将GS的渲染图像考虑到精细对齐。
提出的新任务新建了数据集，其中包括来自ScanNet的场景和几个自收集的野外场景。

引言

引言部分首先强调了3D配准在构建大规模场景中的关键作用。接着，回顾了基于NeRF（神经辐射场）表示的场景进行重建和配准所面临的挑战，例如数据采集和模型优化过程耗时，且配准方法存在局限性。引出了高斯泼溅（GS）作为一种新兴的、具有显式表示和快速渲染优势的3D表示方法。基于GS的特性，论文提出了核心研究问题：

“我们能否借鉴点云配准的方法来实现GS配准？”

简要介绍了为解决此问题而设计的GaussReg框架，阐述了其粗到精的设计思路以及本文的主要贡献，包括新方法和新构建的基准数据集。

Tips：

背景: 大规模3D重建通常需要将多个独立扫描的子场景进行配准。
NeRF配准的挑战: NeRF的隐式表示给配准带来了困难，现有方法或耗时过长，或难以处理大场景。
GS的机遇: GS使用显式的3D高斯表示，渲染速度快且质量高，其类似点云的特性为配准提供了新的可能性。
GaussReg框架概述:
- 首先，通过类似点云配准的方式获得一个粗略的对齐结果。
- 然后，利用GS能够渲染出包含详细信息的图像这一特性，进行图像引导的精细化对齐。

图1：用高斯飞溅模型对场景A和B进行配准，然后将A和B结合得到融合的高斯飞溅模型。第一行是三维高斯函数的可视化。

Related Work

本章节回顾了与本研究密切相关的三个领域。首先是3D点云配准，介绍了从传统的ICP算法到现代基于深度学习的（如GeoTransformer）方法的演进。其次是3D场景表示，梳理了从传统方法（如体素场、点云、网格）到神经隐式场（NeRF）再到最新的高斯泼溅（GS）的发展历程，并强调了GS在渲染速度和质量上的优势。最后是NeRF配准，总结了现有的NeRF配准方法及其缺点，如依赖人工标注、难以泛化到大场景或耗时过长，从而凸显了为GS开发专用配准方法的必要性。

Tips：

3D点云配准: 技术已相对成熟，主流方法从特征提取和匹配点定位出发来计算变换。
3D场景表示的演进:
- 传统方法包括体素、点云、3D网格等。
- NeRF通过神经网络隐式建模场景，实现了逼真的视图合成。
- GS采用显式的3D高斯来表示场景，实现了实时渲染和高质量成像。
现有NeRF配准方法的局限性: 现有方法在处理大规模场景时存在效率低、泛化能力差等问题。
研究空白: 目前尚无针对新兴且高效的GS表示的场景配准方法。

GaussReg方法详解

阐述GaussReg框架的技术实现，分为四个部分。

概览 (Overview): 介绍了GaussReg的整体流程。输入为两个独立的GS模型，目标是求解一个能将二者对齐的刚性变换（包含缩放、旋转、平移）。整个过程分为粗配准和图像引导的精配准两个阶段。

粗配准 (Coarse Registration): 该阶段直接处理从GS模型中提取的点云。首先，根据不透明度阈值筛选出置信度高的3D高斯点，并提取其位置、颜色等信息作为输入。然后，采用类似GeoTransformer的工作流提取特征，但最后使用ICP算法获得粗略的配准结果

（这部分目前未开源）图像引导的精配准 (Image-Guided Fine Registration): 为了解决GS点云噪声较大、可能存在畸变的问题，该阶段利用GS模型本身包含的丰富图像信息进行优化。它包含两个关键步骤

重叠图像选择 (Overlap Image Selection): 基于粗配准结果，高效地从两个场景的相机位姿中，筛选出视角重叠度最高的几对相机。

图像引导的3D特征提取 (Image-Guided 3D Feature Extraction): 利用筛选出的相机位姿渲染出图像，并通过类似多视图立体（MVS）的原理构建代价体（cost volume），从中提取更鲁棒的3D体素特征，最终用于计算精确的配准参数。

高斯泼溅融合与滤波 (Gaussian Splatting Fusion and Filtering): 在获得最终的配准参数后，本节描述了如何将一个GS模型变换到另一个模型的坐标系下，并最终将两个模型融合为一个完整的场景模型。这包括对3D高斯的位置、旋转、缩放以及球谐函数（SH）系数进行相应的数学变换。

图2：GaussReg的架构。

图3：重叠图像选择和I3D特征提取示意图。（用于图像引导的精配准）

图像引导的精配准方法详解

第一步：重叠图像选择 (Overlap Image Selection)

这一步的目标是，在两个需要配准的GS模型（场景A和场景B）中，高效且准确地找到一小组拥有最大共同视角的相机，并用它们来渲染图像，为后续的特征提取做准备。

这个选择过程分为三个子步骤：

基于角度的初步筛选 (Angle Score Filtering)
- 目的：快速剔除大量明显不相关的相机对，减少计算量。
- 方法：首先，从场景A和场景B的全部训练相机位姿中，各自均匀采样一个小子集（例如，各30个）。然后，利用前一阶段得到的粗配准结果 $\\begin{Bmatrix} {s_c, R_c, T_c} \\end{Bmatrix}$ ，将场景B的相机位姿变换到场景A的坐标系下，使两者大致对齐。接着，计算每对相机（一个来自A，一个来自B）朝向向量之间的余弦相似度（即角度大小）。最后，只保留角度最接近的top-k对相机（实验中k=10）。
基于重投影的精确选择 (Reprojection Score Selection)
- 目的：在初步筛选出的相机对中，进一步精确定位重叠区域最大的那一对。
- 方法：对于上一步留下的每一对相机，系统会利用各自的GS模型快速渲染出两张低分辨率的深度图。然后，通过计算一张深度图中的点投影到另一相机视角下的可见比例（反之亦然），来量化这对相机的视角重叠程度，得出一个“重投影分数” 。分数最高的那对相机 $(C _ { i 0 } ^ { a },C _ { j 0 } ^ { b })$ 被认为是最佳重叠对。得益于GS的快速渲染能力，这一步可以高效完成。
最终相机子集确定
- 目的：选定最终用于渲染高质量图像的相机。
- 方法：在第二步找到的最佳重叠对的邻近区域内，分别选取一小批相机。利用这些选定的相机，从和渲染出图像集和，并将它们送入下一步进行特征提取。

第二步：图像引导的3D特征提取 (Image-Guided 3D Feature Extraction)

这一步借鉴了多视图立体（Multi-View Stereo, MVS）的原理，利用上一步渲染出的多视图图像来辅助深度估计，并提取鲁棒的3D体素特征。其流程如下（以场景A为例）：

2D特征提取：将图像集输入到一个2D卷积神经网络（CNN）中，提取出每张图像的2D特征。
构建代价体 (Cost Volume)：根据一系列深度假设（即物体可能存在的不同深度层面），通过可微分的单应性变换，将源视图的特征“ warp”到参考视图的不同深度平面上，并计算匹配代价，从而构建出一个代价体。这个代价体的维度通常是（深度假设数量 x 高 x 宽）。
3D正则化与特征/概率体生成：将代价体输入到一个3D CNN中进行正则化处理，这能使得代价分布更平滑、更准确。最终输出一个概率体 $P_A$ 和一个特征体 。
- 概率体 $P_A$ ：表示每个像素在不同深度假设下的概率分布。
- 特征体：在每个深度假设层面上，存储了对应的特征信息。
计算深度、置信度与特征：对于每个像素，通过分析其在概率体 $P_A$ 中的概率分布，可以计算出它的最终深度值、置信度 $Conf_A(p)$ 以及融合了深度信息的特征。具体来说，是通过对概率最高的两个深度层进行加权平均得到的（详见文中的公式(2)）。
特征融合与筛选：将上一步得到的深度感知特征、原始2D特征 $Ref_A$ 以及计算出的深度图拼接在一起，再通过卷积层进行融合。最后，使用置信度 $Conf_A$ 作为过滤器，筛掉低置信度的点，得到高分辨率和低分辨率的最终特征 $f_A^{high}$ 和 $f_A^{low }$ 。
最终匹配：将这些从图像中提取的、更加鲁棒的3D特征，投入到与粗配准阶段相同的匹配流程中，从而计算出最终的、精确的配准结果 。

训练策略与损失函数

训练方式：该精配准网络是独立训练的，训练数据来自ScanNet数据集中随机采样的、有重叠区域的多视图图像对。
损失函数：总损失 $L_{total }$ 由两部分加权组成：
- ：深度损失，使用交叉熵损失函数来监督网络预测的深度概率分布，使其接近真实的深度值。
- ：配准损失，与粗配准阶段使用的损失函数相同，用于监督最终的配准变换精度。

实验

本章通过大量的实验来验证GaussReg方法的有效性和高效性。内容包括数据集的构建、评估指标的定义、与其他方法的性能对比以及消融研究。

实验设置:
- 数据集: 由于缺少现成基准，研究团队构建了两个新数据集：一个基于室内场景数据集ScanNet构建的ScanNet-GSReg ；另一个是自己采集的、包含室内外场景的GSReg数据集，用于测试泛化能力。此外，还在Objaverse物体数据集上进行了测试。
- 评估指标: 采用了相对旋转误差（RRE）、相对平移误差（RTE）和相对尺度误差（RSE）等指标来衡量配准精度。

图4：最终配准结果在ScanNet-GSReg和GSReg上的可视化。前两列是要配准的GS点云的可视化。最后两列是我们最终配准和真实值结果的可视化。

性能对比:
- 在ScanNet-GSReg上，GaussReg的配准成功率达到100%，远超HLoc的75.6%，且速度快了44倍（4.8秒 vs 212.3秒）。同时，其性能也显著优于FGR和REGTR等传统及深度点云配准方法。
- 在Objaverse和GSReg数据集上的测试也证明了该方法强大的泛化能力。

表1:对ScanNet-GSReg数据集的评估。↓表示越低越好，↑表示越高越好。我们认为数据预处理也是方法的一部分，所以我们在报告的时间中包含了从GS中获取点云的时间。这里的HLoc[27]*表示HLoc [27] (SuperPoint [9] + SuperGlue[28])。

消融研究:
- 通过对比实验证明了图像引导的精配准模块的有效性，它不仅提升了精度，而且成功率和速度远超使用HLoc进行优化的方案。
- 另一组实验验证了图像引导的3D特征提取策略的优越性，证明了从图像中提取几何信息来辅助特征描述符是一种更有效的方式。

结论

当前局限性: 模型融合策略简单，在光照等条件变化的复杂场景下，融合效果可能不完美。
未来展望: 探索更高级的融合策略以解决外观不一致的问题。
核心贡献总结: 提出了首个针对高斯泼溅场景的配准框架GaussReg，并验证了其高效性和准确性。

【文献阅读】GaussReg: Fast 3D Registration with Gaussian Splatting

相关信息

摘要

主要贡献（创新点）

引言

Related Work

GaussReg方法详解

图像引导的精配准方法详解

实验

结论

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签

【文献阅读】GaussReg: Fast 3D Registration with Gaussian Splatting

相关信息

摘要

主要贡献（创新点）

引言

Related Work

GaussReg方法详解

图像引导的精配准方法详解

实验

结论

相关问题

公告

DeepSeek全套部署资料免费下载

免费可商用字体批量下载

标签