> 技术文档 > 论文笔记 | EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

论文笔记 | EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence


论文链接:EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

代码仓库:HorizonRobotics/EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence (github.com)

📌 导语

在构建具身智能系统时,高质量、物理真实、可交互的3D资产是基础资源。然而,传统3D资产依赖人工建模,不仅成本高、效率低,还缺乏真实性和扩展性。为了解决这些问题,EmbodiedGen 提出了一整套生成式3D世界引擎框架,助力从图像、文本到交互式3D场景的自动构建,为具身智能的研究和应用打开了新的通路。

EmbodiedGen 是一个面向具身智能研究的生成式 3D 世界引擎,通过六个核心模块(Image-to-3DText-to-3DTexture GenerationArticulated Object Generation3D Scene GenerationLayout Generation)生成高质量、交互式 3D 世界,包含高保真 3D 资产(网格和 3DGS)及合理物理属性,支持 URDF 格式并适配多种模拟器(如 OpenAI Gym、MuJoCo)。其核心优势在于解决传统 3D 资产成本高、真实性有限的问题,通过生成式 AI 技术实现物理真实、尺度准确的资产,支持数字孪生、大规模数据增强及具身智能任务(如操控、导航)的训练与评估。


一、核心定位:生成式3D世界引擎,服务具身智能研究

EmbodiedGen 是首个专为具身智能设计的通用3D生成引擎,具备以下三大核心能力:

  • 支持低成本生成大规模3D资产(包括刚体、可动物体、完整场景等);

  • 资产具备真实物理属性与真实世界尺度(支持URDF标准);

  • 可无缝集成至主流物理模拟器(如 OpenAI Gym、MuJoCo、Isaac Lab 等),用于操控、导航、抓取等任务。


二、六大模块构成完整生成链路

EmbodiedGen 提供了从输入(图像/文本/任务描述)到输出(3D资产/可交互场景)的完整流水线,涵盖以下六个模块:

1. Image-to-3D:从图像构建真实世界3D资产

  • 基于 Trellis 生成 Mesh 和 3DGS;

  • 引入 GPT-4o + Qwen 构建的物理专家系统,估计高度、质量、摩擦系数等;

  • 通过自动质检模块(AestheticChecker、ImageSegChecker、MeshGeoChecker)筛查并重试不合格样本;

  • 支持生成高保真纹理(使用去高光+超分辨率,2K分辨率UV贴图);

  • 输出符合 URDF 格式的资产,可直接用于物理模拟。

📌 实测中,质检模块可实现 68.7% 精确率、76.7% 召回率。

2. Text-to-3D:从自然语言提示生成3D资产

  • 采用“两阶段”设计:文本 → 图像(Kolors)→ 3D(复用Image-to-3D);

  • 支持中英文提示词,具有较高生成一致性;

  • 可扩展性强、模块化好,易于后续替换文本图像模型;

  • 支持大规模批量生成 + 自动筛选。

🆚 与 Trellis-text-xlarge 相比,本方法在质量和控制性上均有明显提升。

3. Texture Generation:高质量、多风格纹理生成与编辑

  • 提出 GeoLifter 模型:将几何控制(法线图、位置信息、遮罩)注入扩散模型;

  • 支持文本、图像或两者混合方式控制纹理风格;

  • 保证跨视图纹理一致性;

  • 支持英文、中文文本直接生成纹理标注(如在机器人身上生成 \"Hello\" 或 “中国”)。

4. Articulated Object Generation:生成可动关节物体

  • 基于 DIPO 框架,输入静态+动作图像对,预测物体关节结构;

  • 引入 PM-X 数据集(600类多样化关节物体)用于增强训练;

  • 支持家具、抽屉、机械臂等复杂结构生成;

  • 包含结构推理模块(图注意力),提高连接合理性。

5. 3D Scene Generation:从文本或图像生成完整场景

  • 使用 Diffusion360 模型从文本/图像生成全景图;

  • 使用 Pano2Room + Qwen 完成物理尺度还原、坐标对齐;

  • 输出 Mesh + 3DGS 双表示;

  • 使用超分辨率增强视觉细节;

  • 引入 Panorama Selector 自动筛除结构质量差的场景。

6. Layout Generation:根据任务描述生成物体布局

  • 支持通过任务自然语言(如“机械臂抓取香蕉”)生成物体位置、朝向与物理约束;

  • 可快速构建可交互场景,减少人工建模成本。

📌 六大模块小结:

模块 核心功能 关键技术 性能指标 Image-to-3D 从单张图像生成物理真实的 3D 资产(网格 + 3DGS) - 基于 Trellis 模型生成 3D 表示
- 物理专家模块恢复真实尺度(如高度、质量)
- 自动化质量检测(美学评分≥4.62 为合格) - 物理属性预测准确率:通过 GPT-4o 和 Qwen 模型实现
- 质量检测召回率 76.7%、精确率 68.7% Text-to-3D 从文本生成 3D 资产 - 分两阶段:文本到图像(Kolors 模型)→图像到 3D
- 支持中英双语提示词 - 生成资产与文本描述一致性优于 Trellis-text-xlarge Texture Generation 3D 网格的多风格纹理生成 - GeoLifter 模型注入几何约束
- 去高光和超分辨率处理(2K 分辨率) - 跨视图纹理一致性优于 TEXTure、SyncMVD 等方法 Articulated Object Generation 生成可动关节物体(如抽屉、机械臂) - 基于 DIPO 模型,输入双状态图像(静止 + 运动)
- PM-X 数据集(600 个多样化关节物体) - 支持复杂关节结构生成,如多抽屉家具 3D Scene Generation 生成 360° 全景 3D 场景 - 从文本 / 图像生成全景图(Diffusion360 模型)
- 转换为 3DGS 和网格表示 - 场景尺度误差≤5%(与真实世界对比)

三、关键技术亮点

技术模块 核心创新 物理专家模块 结合 GPT-4o 和 Qwen,预测资产的真实世界尺寸、质量、摩擦系数等;支持通过语言上下文 disambiguation(如 plush toy vs. real animal) 自动质检体系 AestheticChecker + SegChecker + GeoChecker 组成完整流水线,支持自动筛选并重试,提升有效产出率 纹理一致性优化 采用逐视图去高光 + 超分辨率 + 几何投影融合,提升细节与一致性 可动物体建模 DIPO 引入 dual-state injection 与图结构推理模块,处理复杂物体结构

四、核心应用场景

✅ 数字孪生

  • 从真实图像快速恢复场景/物体,并导入模拟器中;

  • 支持闭环评估,如在 Isaac Lab 中进行真实抓取策略仿真测试。

✅ 大规模数据增强

  • 支持一次性生成数百类风格资产(如杯子、工具、机器人),提升模型的泛化能力;

  • 生成资产具备完整物理属性,可直接用于 RL 或强化学习训练。

✅ 具身智能训练

  • 支持导航、操控、抓取等任务场景构建;

  • 提供 layout 生成,降低搭建复杂场景的成本;

  • 适配主流物理模拟平台如 MuJoCo、OpenAI Gym、Isaac Lab 等。

✅ 高保真模拟渲染:RoboSplatter 模块

  • 将 3DGS 渲染与物理模拟结合,兼顾视觉真实与交互物理准确性;

  • 替代传统基于 OpenGL 的重建渲染方案,支持高效实时交互。


五、总结:一站式具身智能内容生成平台

EmbodiedGen 不只是一个3D生成工具,而是面向具身智能全流程研究的内容生产基础设施

它打通了从图像、文本到3D资产、场景再到交互模拟的完整链条,解决了长期制约具身智能研究的数据瓶颈问题,降低了构建高质量仿真环境的门槛,是数字孪生、机器人学习、虚拟环境构建等地方的关键加速器。


📚 参考论

Xinjie W, Liu L, Yu C, et al. EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence[J]. arXiv preprint arXiv:2506.10600, 2025.