OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试,提供包含静态图像、同步音频和视频片段的连续交错多模态输入。数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统标注了多模态依赖级别。实验表明,当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中性能显著下降,且存在跨模态干扰问题。
核心要点
- 首个步骤级全模态GUI智能体基准测试,包含709个专家演示片段(2579个动作步骤)
- 覆盖29个应用,提供静态图像、同步音频和视频片段的连续交错多模态输入
- 当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中性能显著下降
- 消融实验发现跨模态干扰是主要瓶颈,尤其是处理任务无关环境噪声时
- 数据集、评估流程和基线提示已开源:https://github.com/omni-gui/OmniGUI
正文
当前图形用户界面(GUI)智能体的基准测试主要依赖静态截图。然而,真实世界的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距,我们提出了OmniGUI,这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。
数据集
OmniGUI提供连续的、交错的多模态输入,包括每个动作步骤的静态图像、同步音频和视频片段。数据集包含29个应用的709个专家演示片段(2579个动作步骤),并系统标注了客观的多模态依赖级别。
基线方法
由于专门的全模态GUI智能体框架尚处于初期阶段,我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。
实验结果
实证评估显示,当前模型在视觉静态任务上表现良好,但在需要同步时间与听觉信号的环境中,其动作预测性能显著下降。此外,消融研究隔离了特定的操作瓶颈,特别是处理任务无关环境噪声时的跨模态干扰。
资源
完整的数据集、评估流程和基线提示已在补充材料中提供。项目页面:https://omni-gui.github.io。
关联概念
- 多模态智能体
- GUI智能体
- 跨模态干扰
- 动作预测
- 智能手机环境
可操作项
访问项目页面(https://omni-gui.github.io)下载数据集和评估流程,使用提供的基线提示测试自己的全模态模型,重点关注跨模态干扰问题并尝试优化模型对任务无关噪声的鲁棒性。
原文: OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
自动加工于 2026-05-20 11:28