Video2GUI：合成大规模交互轨迹用于通用GUI智能体预训练

针对GUI智能体因缺乏大规模、多样化训练数据而泛化能力受限的问题，本文提出Video2GUI——一个全自动框架，能从无标注互联网视频中提取结构化的GUI交互轨迹。通过粗到细的过滤策略，从5亿视频元数据中筛选出高质量教程视频，构建了包含1200万条交互轨迹、覆盖1500多个应用和网站的WildGUI数据集。在该数据集上预训练Qwen2.5-VL和Mimo-VL模型，在多个GUI定位和动作基准上取得5-20%的持续提升，达到或超越当前最优性能。代码和数据集已开源。

核心要点

提出Video2GUI全自动框架，从无标注互联网视频中提取GUI交互轨迹，无需人工标注。
采用粗到细过滤策略，从5亿视频元数据中筛选高质量教程视频，并转换为结构化智能体轨迹。
构建WildGUI数据集，包含1200万条交互轨迹，覆盖1500+应用和网站，规模远超现有数据集。
预训练Qwen2.5-VL和Mimo-VL模型，在多个GUI定位和动作基准上获得5-20%的持续提升，匹配或超越SOTA。
代码和数据集已开源（GitHub: WeiminXiong/Video2GUI），支持GUI智能体后续研究。

正文

近年来，多模态大语言模型的进展推动了图形用户界面（GUI）智能体的研究热潮，但其泛化能力受限于大规模、多样化训练数据的匮乏。现有数据集严重依赖昂贵的人工标注，且通常局限于狭窄领域。

为突破这一瓶颈，本文提出Video2GUI——一个全自动框架，能从无标注互联网视频中直接提取接地（grounded）的GUI交互轨迹。Video2GUI采用粗到细过滤策略，首先从海量视频中识别高质量的GUI教程视频，再将其转换为结构化的智能体轨迹（包含屏幕截图、操作动作、目标元素坐标等）。

将该流程应用于5亿视频元数据条目后，团队构建了WildGUI数据集，包含1200万条交互轨迹，覆盖1500多个应用和网站，涵盖桌面、移动端等多种GUI环境。这是目前规模最大、领域最广的GUI交互数据集之一。

在WildGUI上预训练Qwen2.5-VL和Mimo-VL模型后，在多个GUI定位（如ScreenSpot、GUI-Odyssey）和动作基准（如AndroidControl、WebArena）上，模型性能获得5-20%的持续提升，匹配甚至超越了当前最优方法。这表明大规模、多样化的预训练数据能显著增强GUI智能体的泛化能力。

作者已开源WildGUI数据集和Video2GUI流程（GitHub: WeiminXiong/Video2GUI），旨在为GUI智能体的未来研究提供数据基础与自动化工具。

关联概念

多模态大语言模型（MLLM）
GUI智能体（GUI Agent）
预训练（Pre-training）
交互轨迹（Interaction Trajectory）
粗到细过滤（Coarse-to-Fine Filtering）

可操作项

可访问GitHub仓库（WeiminXiong/Video2GUI）下载WildGUI数据集和Video2GUI框架代码，尝试在自己的GUI智能体模型上使用该数据集进行预训练或微调，并对比在ScreenSpot、AndroidControl等基准上的性能变化。

原文: Video2GUI: Synthesizing Large-Scale Interaction Trajectories for Generalized GUI Agent Pretraining
自动加工于 2026-05-21 08:09

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章