MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

Video2GUI:合成大规模交互轨迹用于通用GUI智能体预训练

阅读原文 ↗

针对GUI智能体因缺乏大规模、多样化训练数据而泛化能力受限的问题,本文提出Video2GUI——一个全自动框架,能从无标注互联网视频中提取结构化的GUI交互轨迹。通过粗到细的过滤策略,从5亿视频元数据中筛选出高质量教程视频,构建了包含1200万条交互轨迹、覆盖1500多个应用和网站的WildGUI数据集。在该数据集上预训练Qwen2.5-VL和Mimo-VL模型,在多个GUI定位和动作基准上取得5-20%的持续提升,达到或超越当前最优性能。代码和数据集已开源。


核心要点

  1. 提出Video2GUI全自动框架,从无标注互联网视频中提取GUI交互轨迹,无需人工标注。
  2. 采用粗到细过滤策略,从5亿视频元数据中筛选高质量教程视频,并转换为结构化智能体轨迹。
  3. 构建WildGUI数据集,包含1200万条交互轨迹,覆盖1500+应用和网站,规模远超现有数据集。
  4. 预训练Qwen2.5-VL和Mimo-VL模型,在多个GUI定位和动作基准上获得5-20%的持续提升,匹配或超越SOTA。
  5. 代码和数据集已开源(GitHub: WeiminXiong/Video2GUI),支持GUI智能体后续研究。

正文

近年来,多模态大语言模型的进展推动了图形用户界面(GUI)智能体的研究热潮,但其泛化能力受限于大规模、多样化训练数据的匮乏。现有数据集严重依赖昂贵的人工标注,且通常局限于狭窄领域。

为突破这一瓶颈,本文提出Video2GUI——一个全自动框架,能从无标注互联网视频中直接提取接地(grounded)的GUI交互轨迹。Video2GUI采用粗到细过滤策略,首先从海量视频中识别高质量的GUI教程视频,再将其转换为结构化的智能体轨迹(包含屏幕截图、操作动作、目标元素坐标等)。

将该流程应用于5亿视频元数据条目后,团队构建了WildGUI数据集,包含1200万条交互轨迹,覆盖1500多个应用和网站,涵盖桌面、移动端等多种GUI环境。这是目前规模最大、领域最广的GUI交互数据集之一。

在WildGUI上预训练Qwen2.5-VL和Mimo-VL模型后,在多个GUI定位(如ScreenSpot、GUI-Odyssey)和动作基准(如AndroidControl、WebArena)上,模型性能获得5-20%的持续提升,匹配甚至超越了当前最优方法。这表明大规模、多样化的预训练数据能显著增强GUI智能体的泛化能力。

作者已开源WildGUI数据集和Video2GUI流程(GitHub: WeiminXiong/Video2GUI),旨在为GUI智能体的未来研究提供数据基础与自动化工具。


关联概念

  • 多模态大语言模型(MLLM)
  • GUI智能体(GUI Agent)
  • 预训练(Pre-training)
  • 交互轨迹(Interaction Trajectory)
  • 粗到细过滤(Coarse-to-Fine Filtering)

可操作项

可访问GitHub仓库(WeiminXiong/Video2GUI)下载WildGUI数据集和Video2GUI框架代码,尝试在自己的GUI智能体模型上使用该数据集进行预训练或微调,并对比在ScreenSpot、AndroidControl等基准上的性能变化。


原文: Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
自动加工于 2026-05-21 08:09

#GUI智能体#预训练#数据合成#交互轨迹

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA