OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试,它整合了静态图像、同步音频和视频片段作为输入。数据集包含29个应用的709个专家演示片段(2579个动作步骤),并标注了多模态依赖级别。实验发现,现有模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中性能显著下降,且存在跨模态干扰问题。
核心要点
- 首个步骤级全模态GUI智能体基准测试,整合图像、音频和视频输入
- 数据集包含709个专家演示片段(2579个动作步骤),覆盖29个应用
- 现有模型在视觉静态任务上表现良好,但在同步时间与听觉信号环境中性能显著下降
- 消融实验发现跨模态干扰(任务无关环境噪声)是主要操作瓶颈
- 提供了完整数据集、评估流程和基线提示
正文
AI摘要
OmniGUI提出了一个新颖的多模态基准测试,用于GUI智能体,它整合了同步的音频、视频和图像输入,以更好地模拟真实的智能手机交互。
原始摘要
当前的图形用户界面(GUI)智能体基准测试主要依赖静态截图。然而,真实的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距,我们引入了OmniGUI,这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。OmniGUI在每个动作步骤提供连续的、交错的多模态输入,包括静态图像、同步音频和视频片段。该数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统性地标注了客观的多模态依赖级别。由于专门的全模态GUI智能体框架尚处于初期阶段,我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。我们的实证评估显示,虽然当前模型在视觉静态任务上表现出色,但在需要同步时间和听觉信号的环境中,它们的动作预测性能显著下降。此外,消融研究隔离了特定的操作瓶颈,特别是在处理任务无关的环境噪声时的跨模态干扰。完整的数据集、评估流程和基线提示在补充材料中提供。项目页面:https://omni-gui.github.io。
延伸摘要
当前的图形用户界面(GUI)智能体基准测试主要依赖静态截图。然而,真实的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距,我们引入了OmniGUI,这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。OmniGUI在每个动作步骤提供连续的、交错的多模态输入,包括静态图像、同步音频和视频片段。该数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统性地标注了客观的多模态依赖级别。由于专门的全模态GUI智能体框架尚处于初期阶段,我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。我们的实证评估显示,虽然当前模型在视觉静态任务上表现出色,但在需要同步时间和听觉信号的环境中,它们的动作预测性能显著下降。此外,消融研究隔离了特定的操作瓶颈,特别是在处理任务无关的环境噪声时的跨模态干扰。完整的数据集、评估流程和基线提示在补充材料中提供。项目页面:https://omni-gui.github.io。
关联概念
- 多模态输入
- GUI智能体
- 动作预测
- 跨模态干扰
- 基准测试
可操作项
可下载OmniGUI数据集和评估流程,使用提供的基线提示测试现有全模态模型在智能手机GUI任务上的性能,并针对跨模态干扰问题进行优化。
原文: OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
自动加工于 2026-05-21 01:55