AI·模型 Hugging Face Daily Papers 2026-05-20

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

AI·模型 Hugging Face Daily Papers 2026-05-20

CHI-Bench:AI代理能否自动化端到端、长周期、政策密集的医疗工作流程?

CHI-Bench是一个评估AI代理在医疗运营中自动化能力的基准,重点测试政策密度、多角色组合和多边交互三大能力。在30种代理配置下,最佳代理仅解决28.0%的任务,严格通过率低于20%,单会话执行性能降至3.8%,揭示了当前AI在政策密集、角色组合、不可逆的企业领域中的显著性能差距。

AI·模型 Hugging Face Daily Papers 2026-05-20

OmniGUI:全模态智能手机环境下的GUI智能体基准测试

OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试,提供包含静态图像、同步音频和视频片段的连续交错多模态输入。实验表明,当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境下表现不佳。

AI·模型 Hugging Face Daily Papers 2026-05-20

OProver:面向智能体形式定理证明的统一框架

OProver 是一个面向 Lean 4 的智能体形式定理证明统一框架,通过迭代训练(持续预训练 + 迭代后训练)结合已验证证明和编译器反馈来改进证明生成。其核心组件 OProofs 包含 177 万条 Lean 语句、686 万个编译器验证的证明及序列化轨迹。

AI·模型 Hugging Face Daily Papers 2026-05-20

基于学习可靠性的过程奖励

BetaPRM 提出了一种分布式过程奖励模型,通过 Beta-Binomial 似然学习步骤级成功概率及其可靠性,支持自适应计算分配,在保持准确性的同时减少令牌使用。

AI·模型 TechCrunch 2026-05-20

谷歌Genie世界模型现可通过街景模拟真实街道

谷歌DeepMind将街景数据集成到其通用世界模型Genie中,允许用户从文本或图像生成交互式3D环境,并模拟天气、视角变化等。该技术已用于Waymo自动驾驶训练,但仍是实验性产品,精度和物理模拟有待提升。

AI·模型 Hugging Face Daily Papers 2026-05-20

代码作为智能体框架

本文提出“代码作为智能体框架”的统一视角,认为代码不仅是输出目标,更是智能体推理、行动、环境建模和执行验证的操作基础。文章系统梳理了相关方法与应用,涵盖编码助手、GUI/OS自动化、具身智能、科学发现等多个场景。

AI·模型 Hacker News 2026-05-20

生长神经细胞自动机

本文介绍了一种将神经网络与细胞自动机结合的模型,使智能体从单个细胞生长出复杂结构,具备自组织与自修复能力。

AI·模型 Simon Willison's Weblog 2026-05-20

LLM领域过去六个月的五分钟回顾

本文回顾了2025年11月至2026年4月期间LLM领域的关键进展,包括编码代理的成熟、OpenClaw项目的崛起以及各大模型在绘图测试中的表现。

AI·模型 Hacker News 2026-05-20

双子座全能模型

Google 推出 Gemini Omni 多模态 AI 模型,可同时处理文本、图像、音频和视频,实现跨模态推理与实时交互。