OmniGUI：全模态智能手机环境下的GUI智能体基准测试

OmniGUI是首个针对全模态智能手机环境的GUI智能体步骤级基准测试，提供包含静态图像、同步音频和视频片段的连续交错多模态输入。数据集包含29个应用的709个专家演示片段（2579个动作步骤），并系统标注了多模态依赖级别。实验表明，当前模型在视觉静态任务上表现良好，但在需要同步时间与听觉信号的环境中性能显著下降，且存在跨模态干扰问题。

核心要点

首个步骤级全模态GUI智能体基准测试，包含709个专家演示片段（2579个动作步骤）
覆盖29个应用，提供静态图像、同步音频和视频片段的连续交错多模态输入
当前模型在视觉静态任务上表现良好，但在需要同步时间与听觉信号的环境中性能显著下降
消融实验发现跨模态干扰是主要瓶颈，尤其是处理任务无关环境噪声时
数据集、评估流程和基线提示已开源：https://github.com/omni-gui/OmniGUI

正文

当前图形用户界面（GUI）智能体的基准测试主要依赖静态截图。然而，真实世界的智能手机交互通常要求智能体处理与动作时刻紧密耦合的瞬时音频线索和时间视频动态。为弥补这一差距，我们提出了OmniGUI，这是首个旨在全模态智能手机环境中评估GUI智能体的步骤级基准测试。

数据集

OmniGUI提供连续的、交错的多模态输入，包括每个动作步骤的静态图像、同步音频和视频片段。数据集包含29个应用的709个专家演示片段（2579个动作步骤），并系统标注了客观的多模态依赖级别。

基线方法

由于专门的全模态GUI智能体框架尚处于初期阶段，我们选择了能够原生处理交错输入的基础全模态模型作为初始基线的智能体代理。

实验结果

实证评估显示，当前模型在视觉静态任务上表现良好，但在需要同步时间与听觉信号的环境中，其动作预测性能显著下降。此外，消融研究隔离了特定的操作瓶颈，特别是处理任务无关环境噪声时的跨模态干扰。

资源

完整的数据集、评估流程和基线提示已在补充材料中提供。项目页面：https://omni-gui.github.io。

关联概念

多模态智能体
GUI智能体
跨模态干扰
动作预测
智能手机环境

可操作项

访问项目页面（https://omni-gui.github.io）下载数据集和评估流程，使用提供的基线提示测试自己的全模态模型，重点关注跨模态干扰问题并尝试优化模型对任务无关噪声的鲁棒性。

原文: OmniGUI: Benchmarking GUI Agents in Omni-Modal Smartphone Environments
自动加工于 2026-05-20 11:28

核心要点

正文

数据集

基线方法

实验结果

资源

关联概念

可操作项

更多 AI·模型 文章

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

OpenAI声称解决了80年数学难题——这次是真的

OScaR：面向LLM及更广领域的极端KV缓存量化的奥卡姆剃刀

双管齐下：面向大语言模型上下文完整性的互补自蒸馏

更多 AI·模型文章