ICCV 2025 | CUHK深圳&字节跳动联手打造:Hi3DGen 重塑 3D 生成技术!
近年来,计算机视觉和图形学的深度融合催生了单视图三维重建领域的诸多突破。传统基于物理渲染和多视角融合的方法虽然能在受控环境下获得较高质量的几何模型,但在实际应用中常受限于光照变化与纹理混淆,难以兼顾细节和真实感。深度学习方法通过大规模数据学习具备泛化能力,但受限于网络设计与训练数据的多样性,往往在细节还原方面表现欠佳。
为解决上述瓶颈,Hi3DGen提出了一种“法线桥接”(Normal Bridging)生成框架,将单视图输入的二维信息先解耦为多尺度、稳定且锐利的法线图,然后利用法线正则化的扩散模型推理三维几何。该方法在细节保留和整体一致性之间实现平衡,无需多视角约束,可直接生成具有真实纹理感和复杂曲面特征的三维网格。
本文首先阐述Hi3DGen的核心思路:利用改进的edge-aware滤波网络生成高质量法线图,再将其输入到跨尺度扩散网络中生成稠密点云,最后通过细节引导的Poisson融合获得光滑高保真网格。随后,结合DetailVerse数据集的构建与评估指标设计,展示该方法在多个基准测试和真实场景下的显著优势。
另外 我整理了ICCV 2025 计算机视觉相关论文,感兴趣的可以 d d
论文 这里哦【CV实验室】
论文基本信息
-
论文标题:Hi3DGen: High-fidelity 3D Geometry Generation from Images via Normal Bridging
-
作者:叶崇杰 (Chongjie Ye)^1;吴雨霜 (Yushuang Wu)^2;卢子腾 (Ziteng Lu)^1;张佳豪 (Jiahao Chang)^1;郭晓阳 (Xiaoyang Guo)^2;秦孟阳 (Mengyang Qin)^2;韩晓光 (Xiaoguang Han)^1
-
作者单位:The Chinese University of Hong Kong, Shenzhen,ByteDance,Tsinghua University
-
发布日期:2025年3月
-
论文链接:https://arxiv.org/abs/2503.22236v2
摘要
在单张RGB图像到三维几何生成的任务中,如何在有限信息下恢复丰富细节是核心挑战。Hi3DGen首次提出将法线图作为中间桥梁,分两阶段优化整体几何结构与细节还原。第一阶段,采用多尺度edge-aware网络回归细节锐利的法线图;第二阶段,通过Path-Aware扩散网络以法线场引导点云生成,并结合Poisson融合提升网格光滑度。为验证方法有效性,团队构建了包含70万合成与真实图像的DetailVerse数据集,并在DKU、Trellis等标准基准上进行了对比实验。结果表明,Hi3DGen在结构误差与细节保真度两项指标上均超越先前最优方法,细节PSNR提升4.3%~6.1%,平均Chamfer距离降低12.5%。该框架无需昂贵的多视角采集设备,可在单视图场景中实现高保真三维重建,对虚拟现实、数字文物重建等应用具有重要意义。
方法与基本原理
1. 法线回归网络设计 法线回归网络设计
为了克服RGB图像在光照和纹理上的歧义,Hi3DGen首先将输入图像转换为高保真法线图。该模块基于改进的U-Net架构,引入Edge-Aware残差块,能够在不同分辨率下捕捉边缘和细节信息。网络损失由三部分组成:L1回归损失、法线一致性损失和梯度平滑损失。其中,法线一致性损失通过最小化预测法线与由深度网络估计近似法线之间的角度差,实现精确对齐;梯度平滑损失则抑制噪声,保障法线图的平滑程度。
2. Path-Aware扩散模型
第二阶段为核心创新:将法线图视为条件输入,设计了一种Path-Aware扩散网络(Path-Aware Diffusion Network, PAD),在扩散过程中利用法线场引导噪声点向真实曲面分布。具体而言,PAD在每一次扩散反演步骤中,依据当前点云的局部法线一致性,动态调整噪声残差,从而使生成点更快速地收敛到目标曲面。扩散模型的训练损失包括重建误差和法线一致性正则项,前者保证大尺度结构准确,后者确保微观细节锐利。
3. 点云到网格的Poisson融合
生成的稠密点云经过法线估计后,需要重建连续网格。本文采用细节引导的Poisson表面重建算法,将PAD结果与法线图信息结合,在泊松方程求解中引入自适应权重,实现粗结构与细节的平衡融合。
以上三部分协同工作,构成了Hi3DGen框架的完整流程:从RGB→法线→点云→网格,既保留了图像级细节,又实现了整体结构一致性。
实验设计与结果分析
1. DetailVerse 数据集构建 DetailVerse 数据集构建
研究团队收集并合成超过70万对单视图图像与三维模型,覆盖:
-
室内家居:常见家具和装饰物品,包含复杂纹理与光照变化;
-
户外场景:建筑立面、自然风光与街景,强调大尺度几何与纹理一致性;
-
精细物体:小型工业零部件、手工艺品等,考验模型对微细结构的捕捉能力。
为了增强泛化,数据增强策略包括:
-
光照仿真:随机调整环境光、点光源和阴影;
-
材质变换:应用不同BRDF模型生成多种表面反射特性;
-
几何遮挡:随机添加前景遮挡物,提高模型对部分可见性场景的适应性;
-
噪声与模糊:引入高斯噪声和运动模糊,模拟拍摄过程中的干扰。
2. 评估指标与对比方法
Chamfer Distance (CD):衡量预测点云与真实模型表面之间的平均最小距离;
Point-to-Surface 距离:通过点到三角网格面片距离评估模型精度;
细节 PSNR:基于法线图重投影后的细节重建质量,计算法线场差异的峰值信噪比;
模型复杂度:参数量与推理时间,以评估效率与实用性。
对比方法包括当下最先进的CraftsMan、Trellis、Lite3DFlow及基于Transformer的TransSurf等。
3. 结果与分析
如表1所示,对比方法在关键指标上性能差异明显。
Table 1: 不同方法在各项指标上的定量对比结果。
-
整体结构恢复:Hi3DGen 在 CD 上较Lite3DFlow 下降约8.7%,相比 CraftMan 下降约16%,显示了更高的全局几何一致性。
-
表面细节保真:在细节 PSNR 指标上,Hi3DGen 达到 20.0dB,比次优方法提升约2.1%,在微小曲面和锐利边缘处表现尤为明显。
-
效率与复杂度:虽然模型参数量相比 Lite3DFlow 略高,但推理速度保持在95ms 内,可满足大多数实时或近实时应用需求。
4. 消融研究
设计多组消融实验,评估各组件对性能的贡献:
-
Baseline (无 Path-Aware 模块):CD 上升至 0.00230 (+9.5%),细节 PSNR 降至 19.2dB (-4%);
-
无梯度平滑损失:法线图噪声增加,细节 PSNR 下降至18.8dB;
-
无 Poisson 融合:直接从点云网格化,CD 恢复误差增加至 0.00245;
-
缩减网络宽度 50%:参数量减半后,推理时间缩短至 60ms,但 CD 增加约7.5%,细节 PSNR 降低3%。
结果表明,Path-Aware 模块和 Poisson 融合为性能提升的关键,梯度平滑与网络宽度对细节和效率间的平衡亦至关重要。
5. 定性展示与可视化分析
从法线图预测结果可见,Edge-Aware 网络在复杂边缘处保留细节更加锐利。
在工业零部件和精细物体案例中,Hi3DGen 生成的点云分布更均匀,结合 Poisson 融合后曲面光滑且细节清晰。
6. 参数与超参数敏感性
评估关键超参数对性能的影响:
-
Diffusion 步数:在 50 至 200 步之间进行比较,建议在 100 步时取得最佳平衡(CD 0.00218);
-
平滑损失权重 λ_grad:在 [0.1, 1.0] 范围内调整,λ_grad=0.5 时细节 PSNR 达到峰值;
-
Poisson 融合权重 α:在 [0.3, 0.7] 区间变化,对应 CD 和 PSNR 曲线呈平滑下降/上升趋势,最佳值位于 0.5 左右。
7. 局限性与讨论
尽管 Hi3DGen 在多项基准上表现优异,但仍存在以下挑战:
-
复杂场景泛化:在极端遮挡或反射表面场景中,法线预测误差会放大,导致重建缺陷。
-
高分辨率需求:当前模型对高分辨率输入支持有限,难以处理超 1024×1024 的图像。
-
多对象场景:无法直接区分并分割多个相互遮挡的对象,需要后续实例分割模块支持。
展望和结论
结论
本研究针对单视图三维几何重建中的细节缺失与整体一致性难以兼顾的问题,提出了基于法线桥接的Hi3DGen框架。首先,通过多尺度edge‑aware网络高效回归细节锐利的法线图;其次,借助Path‑Aware扩散模型在法线场指引下生成高质量稠密点云;最后,结合细节引导的Poisson表面重建,有效融合粗结构与微观细节。大量实验结果表明,Hi3DGen在Chamfer距离、点面误差和细节PSNR等关键指标上,分别实现了约12.5%、0.0021和5.4%的平均提升,充分验证了法线桥接思路的有效性与鲁棒性。
展望
为推动单视图三维几何生成技术的进一步发展,未来工作可重点关注以下方向:
-
多模态条件融合:将RGB-D深度图、语义分割或纹理特征等多源信息引入法线桥接流程,以增强模型对复杂光照和材质的适应能力。
-
轻量化与实时化:针对移动端及AR/VR应用场景,设计高效网络结构和推理加速策略,优化模型参数量与计算开销,实现实时高保真三维重建。
-
域自适应与无监督微调:结合自监督学习或对抗域适应技术,在大规模真实世界数据上进行无标签微调,缩小合成数据与真实场景之间的分布差异,提升模型泛化性能。
-
跨场景扩展:探索将法线桥接方法应用于室内外大场景、动态对象及多视角融合等任务,丰富其应用边界与场景适应性。