谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人
谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。
20+ 篇文章
谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。
CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。
Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。
AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。
Aurora 是一个代理式视频编辑框架,结合视觉语言模型代理与视频扩散变换器,通过结构化编辑计划和自动参考图像选择解决用户请求歧义问题。
CHI-Bench是一个评估AI代理在医疗运营中自动化能力的基准,重点测试政策密度、多角色组合和多边交互三大能力。在30种代理配置下,最佳代理仅解决28.0%的任务,严格通过率低于20%,单会话执行性能降至3.8%,揭示了当前AI在政策密集、角色组合、不可逆的企业领域中的显著性能差距。
TDDev框架通过三阶段自动化测试驱动开发流程,将自然语言需求转化为结构化验收测试、浏览器交互模拟验证及修复报告,使Web应用生成质量提升34-48个百分点。
NGM是一种无需训练、即插即用的记忆模块,通过因果N-gram编码器和余弦门控记忆注入器提升大语言模型性能,在Qwen3系列上平均提升0.5-1.2个点。
OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试,提供包含静态图像、同步音频和视频片段的连续交错多模态输入。实验表明,当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境下表现不佳。
OProver 是一个面向 Lean 4 的智能体形式定理证明统一框架,通过迭代训练(持续预训练 + 迭代后训练)结合已验证证明和编译器反馈来改进证明生成。其核心组件 OProofs 包含 177 万条 Lean 语句、686 万个编译器验证的证明及序列化轨迹。
BetaPRM 提出了一种分布式过程奖励模型,通过 Beta-Binomial 似然学习步骤级成功概率及其可靠性,支持自适应计算分配,在保持准确性的同时减少令牌使用。
谷歌DeepMind将街景数据集成到其通用世界模型Genie中,允许用户从文本或图像生成交互式3D环境,并模拟天气、视角变化等。该技术已用于Waymo自动驾驶训练,但仍是实验性产品,精度和物理模拟有待提升。
本文提出“代码作为智能体框架”的统一视角,认为代码不仅是输出目标,更是智能体推理、行动、环境建模和执行验证的操作基础。文章系统梳理了相关方法与应用,涵盖编码助手、GUI/OS自动化、具身智能、科学发现等多个场景。
本文介绍了一种将神经网络与细胞自动机结合的模型,使智能体从单个细胞生长出复杂结构,具备自组织与自修复能力。
本文回顾了2025年11月至2026年4月期间LLM领域的关键进展,包括编码代理的成熟、OpenClaw项目的崛起以及各大模型在绘图测试中的表现。
Google 推出 Gemini Omni 多模态 AI 模型,可同时处理文本、图像、音频和视频,实现跨模态推理与实时交互。
Artifact-Bench是一个评估多模态大语言模型检测AI生成视频伪影能力的基准,包含三级分类体系和三个任务。对19个模型的实验揭示了当前模型的局限性。
本文提出Code-as-Room框架,利用多模态大语言模型将俯视图图像转换为Blender代码,自动生成3D室内房间。该方法通过多阶段流水线和跨阶段记忆模块提升生成质量,并构建了专用基准测试。
SkillsVote是一个针对长周期LLM智能体的治理框架,通过结构化的收集、推荐和演化流程管理可复用技能。该框架对百万级开源语料进行环境需求、质量和可验证性分析,合成可验证技能任务。
本文提出信息瓶颈适配器(IB-Adapter),无需额外数据即可增强VLA模型对视觉干扰的鲁棒性,仅增加不到100个参数。