MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

代码即房间:通过智能体代码合成从俯视图生成3D房间

阅读原文 ↗

本文提出Code-as-Room,一种基于多模态大语言模型(MLLM)的智能体框架,通过结构化执行引擎将俯视图图像转换为可执行的Blender代码,从而生成3D室内房间。该框架采用多阶段流水线解析场景元素和空间关系,并引入跨阶段记忆模块缓解上下文遗忘问题。同时,作者构建了专用基准测试,验证了该方法在稳定性和生成质量上优于现有智能体方法。


核心要点

  1. 提出Code-as-Room框架,利用MLLM将俯视图图像转换为Blender代码生成3D房间
  2. 采用结构化执行引擎和多阶段流水线(几何、材质、光照)确保生成稳定性
  3. 引入跨阶段记忆模块,解决现有智能体框架中的上下文遗忘问题
  4. 构建专用基准测试,包含多种评估协议,验证方法有效性
  5. 实验表明,该方法在俯视图房间生成任务中优于现有图像条件智能体方法,避免无限循环和不稳定问题

正文

设计逼真且功能性的3D室内房间对于室内设计、虚拟现实、游戏和具身AI等广泛应用至关重要。虽然近期基于多模态大语言模型(MLLM)的方法在从文本描述或参考图像合成3D房间方面展现出巨大潜力,但基于文本的方法难以捕捉精确的空间信息,而现有的图像条件智能体在从俯视图进行整体房间生成时,存在不稳定和无限循环的问题。为解决这些局限,我们提出Code-as-Room,一种配备结构化执行引擎的MLLM智能体框架,该框架使用Blender代码表示3D房间。给定一张俯视图房间图像,该框架解析参考图像以提取场景元素及其空间关系,并通过原则性的多阶段流水线合成可执行的Blender代码,涵盖几何、材质和光照。整个过程中维护一个跨阶段记忆模块,以缓解现有智能体框架固有的上下文遗忘问题。我们进一步引入一个专用于基于代码的3D房间合成的基准测试,包含多种评估协议。基于该基准测试,我们与现有智能体方法进行了全面比较,以验证所提出的执行引擎的有效性。


关联概念

  • 多模态大语言模型(MLLM)
  • Blender代码合成
  • 3D房间生成
  • 智能体框架
  • 结构化执行引擎
  • 跨阶段记忆

可操作项

访问GitHub仓库(https://github.com/YxuanAr/Code-as-Room)获取代码和实现细节;尝试使用提供的俯视图图像运行框架生成3D房间;参考基准测试协议评估自己的方法。


原文: Code-as-Room: Generating 3D Rooms from Top-Down View Images via Agentic Code Synthesis
自动加工于 2026-05-20 11:27

#3D生成#多模态大语言模型#智能体#Blender#室内场景

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA