> 技术文档 > 论文Review 3DGS 2DGS | SIGGRAPH 2024 上科大 图宾根大学 | 目前用的最多的3DGS之一竟然是2DGS_2dgs几何优化

论文Review 3DGS 2DGS | SIGGRAPH 2024 上科大 图宾根大学 | 目前用的最多的3DGS之一竟然是2DGS_2dgs几何优化


基本信息

题目:2D Gaussian Splatting for Geometrically Accurate Radiance Fields

来源:SIGGRAPH 2024

学校:上海科技大学、University of Tübingen

是否开源:https://github.com/hbb1/2d-gaussian-splatting

摘要:2DGS 表面重建

        3DGS 最近对辐射场重建进行了革命性的变革,实现了高质量的新视角合成和快速的绘制速度。然而,由于3D高斯的多视图不一致性,3DGS无法准确地表示曲面。提出了一种从多视角图像中建模和重建几何精确辐射场的新方法--2DGS 。我们的核心思想是将3D体积坍缩成一组2D定向的平面高斯圆盘disks。与3D高斯不同,2D高斯在本质上建模表面的同时提供了视图一致的几何形状。以精确恢复薄表面并达到稳定优化。我们介绍了一种利用射线-面片相交和光栅化的透视精确二维散斑过程。此外,我们还加入了深度失真和法向一致性项,以进一步提高重建图像的质量。我们证明了我们的可微分渲染器允许无噪声和详细的几何重建,同时保持有竞争力的外观质量,快速的训练速度和实时绘制。

Introduction

1. 背景与问题引入
  • 核心问题:论文强调了计算机图形学和视觉领域中光真实新型视图合成和精确几何重建的重要性。作为长期目标,这些任务面临挑战。作者提到最近的3D Gaussian Splatting (3DGS) 方法在NVS中表现出色,能实现实时高分辨率的光真实渲染,并快速扩展到抗锯齿渲染、材料建模、动态场景重建和可动画化身创建等地方。然而,3DGS在捕捉复杂几何结构方面不足,因为其体积化的3D高斯模型(建模全角辐射)与表面薄性质冲突,导致几何表示不精确。
  • 历史对比:作者回顾了早期工作,如surfels(表面元素),证明其在复杂几何表示中的有效性。Surfels使用形状和阴影属性局部逼近物体表面,在SLAM和机器人任务中广泛应用。随后,surfels被整合到可微分框架中,但这些方法通常需要地面真实几何、深度传感器数据或在已知照明条件下操作,受限于约束场景。
2. 提出方法:2D Gaussian Splatting
  • 方法概述:作者提出将3DGS“扁平化”为2D Gaussian Splatting,使用2D高斯基元(每个定义一个定向椭圆盘)表示3D场景。这种方法结合了3DGS的渲染效率和surfels的几何精确性,同时克服二者局限。
  • 关键优势
    • 几何表示精确性:与3DGS不同,2D高斯通过显式射线-溅射交点(ray-splat intersection)实现透视正确的溅射,避免了3DGS中不同视点下深度不一致的问题(如图2所示)。
    • 表面正则化:2D高斯基元固有表面法线,便于通过法线约束直接进行表面正则化。
    • 从未知几何恢复:不同于需要已知几何的surfels方法,2D高斯可通过基于梯度的优化从未知几何中恢复。
  • 挑战与解决方案:仅用光度损失优化可能导致噪声重建,因为3D重建任务本质上不约束(如先前工作所述)。为此,作者引入两种正则化项:
    • 深度扭曲项(depth distortion):沿射线集中2D基元分布,解决渲染过程中忽略高斯间距离的局限。
    • 法线一致性项(normal consistency):最小化渲染法线图与渲染深度梯度间的差异,确保深度和法线定义的几何一致。
    • 这些正则化结合2D高斯模型,能提取高精度表面网格(如图1所示)。

3. 贡献总结
  • 作者列出三点贡献:
    • 高效可微分2D高斯渲染器,支持透视正确溅射,通过2D表面建模、射线-溅射交点和体积积分实现。
    • 引入两种正则化损失,提升无噪声表面重建。
    • 与其他显式表示相比,实现最先进的几何重建和NVS结果。

Related Works

2.1 Novel View Synthesis

  • 概述:从NeRF引入开始,回顾其使用MLP表示几何和视点相关外观,通过体积渲染优化。后续改进包括抗锯齿(Mip-NeRF及其变体)、渲染效率提升(蒸馏、烘焙)、训练增强(特征网格表示)。
  • 3DGS定位:突出3DGS的实时NVS优势及其快速扩展。
  • 本方法比较:作者提出“扁平化”3D高斯为2D基元,更贴合物体表面,结合新型正则化损失,提升表面精确性,同时保留3DGS的高质量实时渲染。
  • 分析点评:这一节聚焦NVS演进,NeRF作为起点,3DGS作为当前前沿。本方法被定位为3DGS的自然延伸,强调几何改进而非渲染效率革命。引用选择代表性强,避免冗余。

2.2 3D Reconstruction

  • 概述:回顾多视图图像3D重建历史,从多视图立体(MVS)方法(如特征匹配、深度预测、融合)到神经隐式表面表示(MLP + Marching Cube)。后续整合隐式表面与体积渲染,实现RGB图像详细重建,并扩展到大规模场景(附加正则化)和高效对象重建。
  • 挑战:高效大规模重建仍困难,如Neuralangelo需128 GPU小时处理单个场景。
  • 本方法比较:2D Gaussian Splatting加速重建过程,比先前隐式神经表面表示快一个数量级,同时结果相似或略优。
  • 分析点评:强调从模块化管道到神经方法的转变,突出隐式表示的优势与效率瓶颈。本方法作为显式表示的代表,解决效率问题,定位为实用替代。引用包括经典数据集(如Tanks and Temples),增强可比性。

2.3 Differentiable Point-based Graphics

  • 概述:回顾可微分点基渲染的效率和灵活性,如NPBG(点云特征光栅化 + CNN预测RGB)、DSS(优化定向点云,受已知照明限制)、Pulsar(瓦片加速结构)。
  • 3DGS定位:优化各向异性3D高斯基元,实现实时光真实NVS。
  • 挑战:从非约束多视图图像使用点基表示仍困难。
  • 本方法比较:使用2D高斯基元实现详细表面重建,强调额外正则化损失对优化质量的关键作用。
  • 分析点评:这一节最贴合本方法主题,点基表示作为核心,作者突出其在复杂结构中的潜力。本方法扩展了3DGS,聚焦表面重建,显示创新点在于正则化而非基元本身。

2.4 Concurrent Works

  • 概述:聚焦3DGS扩展到逆渲染,如添加法线属性建模材料,用于重照明任务。
  • 本方法区别:本方法固有定义法线,通过2D基元更贴合几何;焦点在表面重建,而非材料估计。
  • 与其他并发比较:SuGaR用3D高斯逼近2D,但本方法直接用2D,简化过程,无需额外网格精炼;NeuSG联合优化3D高斯和隐式SDF,本方法用2D高斯逼近表面,更快、更简单。
  • 分析点评:这一节处理潜在“并发”问题,明确区分,避免知识产权争议。强调本方法的独特性(直接2D表示、表面焦点),增强原创性。

3 3D Gaussian Splatting

        这一节回顾了3D Gaussian Splatting (3DGS) 方法的核心原理,并分析了其在表面重建方面的挑战。3DGS用于表示3D场景并通过可微分体积溅射渲染图像。它使用3D高斯基元来建模场景,这些基元是显式的、可优化的参数。

3DGS在NVS中表现出色,但表面重建面临问题:

  • 体积表示与表面薄性的冲突:3D高斯建模体辐射场(volumetric radiance),但表面是薄的,导致几何不精确。
  • 缺乏表面法线:3DGS不直接建模法线,影响高质量表面重建。
  • 多视图不一致:光栅化中,不同视点下2D交点平面变化,如图2(a)所示。
  • 仿射投影的局限:仿射矩阵仅在中心精确,边缘区域透视不准确,导致噪声重建(如图5所示)。

这些挑战促使提出2DGS,以更好地捕捉表面几何。

补充:什么是 Volumetric Radiance?

Volumetric Radiance 是现代三维重建,特别是神经辐射场(NeRF: Neural Radiance Fields) 及其衍生技术中的核心概念。它指的是一种对场景的内部表示方法,即将一个三维空间(Volume)建模为一个充满发光粒子或具有光学属性的微小体素(Voxel)的集合。

具体来说,空间中的每一个点 (x, y, z) 都被赋予了两个属性:

  1. 体密度(Volume Density / σ):表示该点在空间中的“存在感”或“不透明度”。密度越高,表示这个点更可能是物体表面的一部分;密度为0,则表示是自由空间(如空气)。

  2. 辐射度(Radiance / c):通常用一个RGB颜色向量来表示。但它不仅仅是颜色,更精确地说,它表示从该点沿某个特定方向 (θ, φ) 发出的光的颜色和强度。这是一个方向依赖的属性,这对于模拟镜面反射、光泽等复杂外观至关重要。

因此,一个 Volumetric Radiance Field(体辐射场) 就是一个定义了整个3D空间中每一点、每一个方向上的密度和辐射度值的5D函数:
F(x, y, z, θ, φ) -> (c(R,G,B), σ)

如何生成图像?
为了从某个视角渲染出这个体辐射场的图像,需要使用一种叫做体渲染(Volume Rendering) 的技术。简单来说,就是从相机原点发射光线穿过每个像素,沿着光线在3D空间中采样一系列点,查询这些点的密度和颜色,然后通过积分公式将这些值累积起来,计算出该像素最终的颜色。这个过程模拟了光线在介质中传播(吸收、发射、散射)的物理过程。

核心思想总结

  • 它不是一个传统的3D网格(Mesh)或点云(Point Cloud)。

  • 它是一个连续的、隐式的场景表示,将3D空间本身视为一种发光介质。

  • 它通过神经网络(在NeRF中)或其它数据结构来近似这个复杂的5D函数。

  • 它利用体渲染技术从这种表示中合成出任意视角的、极具真实感的新图像。

4 2D Gaussian Splatting

        可微分2D高斯溅射(2DGS),旨在精确重建几何,同时保持高质量NVS。不同于3DGS的体积“blob”表示,2DGS使用“扁平”的2D高斯基元嵌入3D空间。

4.1 Modeling

4.2 Splatting

5 TRAINING

实验

硬件平台

训练在单个RTX 3090 GPU上进行

数据集

DTU(15个场景,Chamfer距离,下值更好)和TnT(F1分数,上值更好)。DTU使用Colmap生成稀疏点云,图像下采样到800×600。TnT聚焦大规模场景。

        2DGS在Chamfer距离上优于所有方法(比隐式SDF方法低~0.04-0.69,比3DGS低1.16),证明2D基元在捕捉精细几何上的优势。同时,训练时间比隐式方法快100倍,比SuGaR快3倍以上,展示高效性。定性上,Figure 5显示2DGS重建更少噪声、更详细(如DTU场景的表面平滑),而3DGS和SuGaR有明显离群点。Figure 9提供DTU所有场景的完整几何重建,突出2DGS的少噪声和细节保留。相比SDF方法,2DGS对初始化不敏感(基于辐射场建模)。

        2DGS的F1均值(0.30)与SDF方法竞争(NeuS 0.38, Neuralangelo 0.50),远优于3DGS (0.09) 和SuGaR (0.19),尤其在复杂场景如Barn和Ignatius中表现突出。时间上,2DGS比隐式方法快得多,适合大规模重建。Figure 10显示TnT完整结果,2DGS表面更光滑、无噪声,证明正则化项的有效性。

Mip-NeRF360(无GT几何,聚焦定量比较),使用PSNR(越高越好)、SSIM(越高越好)和LPIPS(越低越好)。

Benchmark

使用SOTA隐式方法(NeRF、VolSDF、NeuS、Geo-Neus、Neuralangelo)和显式方法(3DGS、SuGaR)作为基线

初体验

TODO