MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

OmniGUI:全模态智能手机环境中的GUI智能体基准测试

阅读原文 ↗

OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试,它整合了静态图像、同步音频和视频片段作为输入。数据集包含29个应用的709个专家演示片段(2579个动作步骤),并标注了多模态依赖级别。实验发现,现有模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中性能显著下降,且存在跨模态干扰问题。


核心要点

  1. 首个步骤级全模态GUI智能体基准测试,整合图像、音频和视频输入
  2. 数据集包含709个专家演示片段(2579个动作步骤),覆盖29个应用
  3. 现有模型在视觉静态任务上表现良好,但在同步时间与听觉信号环境中性能显著下降
  4. 消融实验发现跨模态干扰(任务无关环境噪声)是主要操作瓶颈
  5. 提供了完整数据集、评估流程和基线提示

正文

AI摘要

OmniGUI提出了一个新颖的多模态基准测试,用于GUI智能体,它整合了同步的音频、视频和图像输入,以更好地模拟真实的智能手机交互。

原始摘要

当前的图形用户界面(GUI)智能体基准测试主要依赖静态截图。然而,真实的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距,我们引入了OmniGUI,这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。OmniGUI在每个动作步骤提供连续的、交错的多模态输入,包括静态图像、同步音频和视频片段。该数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统性地标注了客观的多模态依赖级别。由于专门的全模态GUI智能体框架尚处于初期阶段,我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。我们的实证评估显示,虽然当前模型在视觉静态任务上表现出色,但在需要同步时间和听觉信号的环境中,它们的动作预测性能显著下降。此外,消融研究隔离了特定的操作瓶颈,特别是在处理任务无关的环境噪声时的跨模态干扰。完整的数据集、评估流程和基线提示在补充材料中提供。项目页面:https://omni-gui.github.io。

延伸摘要

当前的图形用户界面(GUI)智能体基准测试主要依赖静态截图。然而,真实的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距,我们引入了OmniGUI,这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。OmniGUI在每个动作步骤提供连续的、交错的多模态输入,包括静态图像、同步音频和视频片段。该数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统性地标注了客观的多模态依赖级别。由于专门的全模态GUI智能体框架尚处于初期阶段,我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。我们的实证评估显示,虽然当前模型在视觉静态任务上表现出色,但在需要同步时间和听觉信号的环境中,它们的动作预测性能显著下降。此外,消融研究隔离了特定的操作瓶颈,特别是在处理任务无关的环境噪声时的跨模态干扰。完整的数据集、评估流程和基线提示在补充材料中提供。项目页面:https://omni-gui.github.io。


关联概念

  • 多模态输入
  • GUI智能体
  • 动作预测
  • 跨模态干扰
  • 基准测试

可操作项

可下载OmniGUI数据集和评估流程,使用提供的基线提示测试现有全模态模型在智能手机GUI任务上的性能,并针对跨模态干扰问题进行优化。


原文: OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
自动加工于 2026-05-21 01:55

#GUI智能体#多模态#基准测试#智能手机

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA