代码即房间：通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room，一种基于多模态大语言模型（MLLM）的智能体框架，通过结构化执行引擎将俯视图图像转换为可执行的Blender代码，从而生成3D室内房间。该框架采用多阶段流水线解析场景元素和空间关系，并引入跨阶段记忆模块缓解上下文遗忘问题。同时，作者构建了专用基准测试，验证了该方法在稳定性和生成质量上优于现有智能体方法。

核心要点

提出Code-as-Room框架，利用MLLM将俯视图图像转换为Blender代码生成3D房间
采用结构化执行引擎和多阶段流水线（几何、材质、光照）确保生成稳定性
引入跨阶段记忆模块，解决现有智能体框架中的上下文遗忘问题
构建专用基准测试，包含多种评估协议，验证方法有效性
实验表明，该方法在俯视图房间生成任务中优于现有图像条件智能体方法，避免无限循环和不稳定问题

正文

设计逼真且功能性的3D室内房间对于室内设计、虚拟现实、游戏和具身AI等广泛应用至关重要。虽然近期基于多模态大语言模型（MLLM）的方法在从文本描述或参考图像合成3D房间方面展现出巨大潜力，但基于文本的方法难以捕捉精确的空间信息，而现有的图像条件智能体在从俯视图进行整体房间生成时，存在不稳定和无限循环的问题。为解决这些局限，我们提出Code-as-Room，一种配备结构化执行引擎的MLLM智能体框架，该框架使用Blender代码表示3D房间。给定一张俯视图房间图像，该框架解析参考图像以提取场景元素及其空间关系，并通过原则性的多阶段流水线合成可执行的Blender代码，涵盖几何、材质和光照。整个过程中维护一个跨阶段记忆模块，以缓解现有智能体框架固有的上下文遗忘问题。我们进一步引入一个专用于基于代码的3D房间合成的基准测试，包含多种评估协议。基于该基准测试，我们与现有智能体方法进行了全面比较，以验证所提出的执行引擎的有效性。

关联概念

多模态大语言模型（MLLM）
Blender代码合成
3D房间生成
智能体框架
结构化执行引擎
跨阶段记忆

可操作项

访问GitHub仓库（https://github.com/YxuanAr/Code-as-Room）获取代码和实现细节；尝试使用提供的俯视图图像运行框架生成3D房间；参考基准测试协议评估自己的方法。

原文: Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
自动加工于 2026-05-20 11:27

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章