MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

OmniGUI:全模态智能手机环境下的GUI智能体基准测试

阅读原文 ↗

OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试,提供包含静态图像、同步音频和视频片段的连续交错多模态输入。数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统标注了多模态依赖级别。实验表明,当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中性能显著下降,且存在跨模态干扰问题。


核心要点

  1. 首个步骤级全模态GUI智能体基准测试,包含709个专家演示片段(2579个动作步骤)
  2. 覆盖29个应用,提供静态图像、同步音频和视频片段的连续交错多模态输入
  3. 当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中性能显著下降
  4. 消融实验发现跨模态干扰是主要瓶颈,尤其是处理任务无关环境噪声时
  5. 数据集、评估流程和基线提示已开源:https://github.com/omni-gui/OmniGUI

正文

当前图形用户界面(GUI)智能体的基准测试主要依赖静态截图。然而,真实世界的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距,我们提出了OmniGUI,这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。

数据集

OmniGUI提供连续的、交错的多模态输入,包括每个动作步骤的静态图像、同步音频和视频片段。数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统标注了客观的多模态依赖级别。

基线方法

由于专门的全模态GUI智能体框架尚处于初期阶段,我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。

实验结果

实证评估显示,当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中,其动作预测性能显著下降。此外,消融研究隔离了特定的操作瓶颈,特别是处理任务无关环境噪声时的跨模态干扰。

资源

完整的数据集、评估流程和基线提示已在补充材料中提供。项目页面:https://omni-gui.github.io。


关联概念

  • 多模态智能体
  • GUI智能体
  • 跨模态干扰
  • 动作预测
  • 智能手机环境

可操作项

访问项目页面(https://omni-gui.github.io)下载数据集和评估流程,使用提供的基线提示测试自己的全模态模型,重点关注跨模态干扰问题并尝试优化模型对任务无关噪声的鲁棒性。


原文: OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
自动加工于 2026-05-20 11:28

#GUI智能体#多模态#基准测试#智能手机

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌在I/O大会上发布Gemini Omni多模态模型家族,能从图像、音频、文本等输入生成视频,并支持文本编辑照片和创建数字头像,内置SynthID水印防深度伪造。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

OpenAI声称解决了80年数学难题——这次是真的

OpenAI宣称其推理模型推翻了一个自1946年以来未解的几何猜想,且上次质疑其声明的数学家此次为其背书。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

OScaR:面向LLM及更广领域的极端KV缓存量化的奥卡姆剃刀

OScaR是一种新型KV缓存压缩框架,通过沟渠化旋转和全token缩放解决token范数不平衡问题,在INT2量化下实现近无损性能,解码速度相比BF16基线提升3.0倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

双管齐下:面向大语言模型上下文完整性的互补自蒸馏

SELFCI是一种自蒸馏框架,通过将信息抑制与任务解决解耦,联合优化两个逆向KL散度,实现大语言模型中更好的隐私-效用平衡。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA