本文提出Code-as-Room,一种基于多模态大语言模型(MLLM)的智能体框架,通过结构化执行引擎将俯视图图像转换为可执行的Blender代码,从而生成3D室内房间。该框架采用多阶段流水线解析场景元素和空间关系,并引入跨阶段记忆模块缓解上下文遗忘问题。同时,作者构建了专用基准测试,验证了该方法在稳定性和生成质量上优于现有智能体方法。
核心要点
- 提出Code-as-Room框架,利用MLLM将俯视图图像转换为Blender代码生成3D房间
- 采用结构化执行引擎和多阶段流水线(几何、材质、光照)确保生成稳定性
- 引入跨阶段记忆模块,解决现有智能体框架中的上下文遗忘问题
- 构建专用基准测试,包含多种评估协议,验证方法有效性
- 实验表明,该方法在俯视图房间生成任务中优于现有图像条件智能体方法,避免无限循环和不稳定问题
正文
设计逼真且功能性的3D室内房间对于室内设计、虚拟现实、游戏和具身AI等广泛应用至关重要。虽然近期基于多模态大语言模型(MLLM)的方法在从文本描述或参考图像合成3D房间方面展现出巨大潜力,但基于文本的方法难以捕捉精确的空间信息,而现有的图像条件智能体在从俯视图进行整体房间生成时,存在不稳定和无限循环的问题。为解决这些局限,我们提出Code-as-Room,一种配备结构化执行引擎的MLLM智能体框架,该框架使用Blender代码表示3D房间。给定一张俯视图房间图像,该框架解析参考图像以提取场景元素及其空间关系,并通过原则性的多阶段流水线合成可执行的Blender代码,涵盖几何、材质和光照。整个过程中维护一个跨阶段记忆模块,以缓解现有智能体框架固有的上下文遗忘问题。我们进一步引入一个专用于基于代码的3D房间合成的基准测试,包含多种评估协议。基于该基准测试,我们与现有智能体方法进行了全面比较,以验证所提出的执行引擎的有效性。
关联概念
- 多模态大语言模型(MLLM)
- Blender代码合成
- 3D房间生成
- 智能体框架
- 结构化执行引擎
- 跨阶段记忆
可操作项
访问GitHub仓库(https://github.com/YxuanAr/Code-as-Room)获取代码和实现细节;尝试使用提供的俯视图图像运行框架生成3D房间;参考基准测试协议评估自己的方法。
原文: Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
自动加工于 2026-05-20 11:27