MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

CutVerse:面向媒体后期制作编辑的组合式GUI智能体基准

阅读原文 ↗

CutVerse是一个专门用于评估自主GUI智能体在真实媒体后期制作环境中能力的基准测试。它涵盖了7款专业应用(如Premiere Pro、Photoshop)中的186个复杂、长周期任务,并开发了轻量级解析器将屏幕录制和交互日志转化为结构化轨迹。评估显示,现有智能体在真实媒体编辑任务中成功率仅为36.0%,暴露出长周期可靠性和领域特定规划方面的不足。


核心要点

  1. 现有GUI智能体在专业创意工作流(如媒体后期制作)中的能力尚未被充分探索。
  2. CutVerse基准测试包含7款专业应用(Premiere Pro、Photoshop等)和186个复杂长周期任务,基于真实编辑工作流。
  3. 开发了轻量级解析器,将原始屏幕录制和低层交互日志转化为结构化、组合式的GUI动作轨迹。
  4. 现有智能体在真实媒体编辑任务中成功率仅为36.0%,凸显了复杂长周期工作流的挑战。
  5. 当前模型在空间定位、多模态对齐和协调动作执行方面有潜力,但在长周期可靠性和领域特定规划上仍受限。

正文

尽管GUI智能体在网页导航和基本操作系统任务上取得了显著进展,但它们在专业创意工作流(如媒体后期制作)中的能力仍未被充分探索。为填补这一空白,我们引入了CutVerse,一个旨在系统评估自主GUI智能体在真实媒体后期制作环境中能力的基准测试。

我们整理了来自7款专业应用(例如Premiere Pro、Photoshop)的专家演示,覆盖了186个复杂、长周期任务,这些任务基于真实的编辑工作流,涉及密集的多模态界面和紧密耦合的交互序列。为支持可扩展评估,我们开发了一个轻量级解析器,将原始屏幕录制和低层交互日志转化为结构化、组合式的GUI动作轨迹,并带有精确的定位信息。

广泛评估显示,现有智能体在真实媒体编辑任务中仅达到36.0%的任务成功率,这突显了我们的基准测试中复杂、长周期媒体后期制作工作流所带来的挑战。尽管当前模型在空间定位、多模态对齐和协调动作执行方面展现出潜力,但它们在长周期可靠性和领域特定规划方面仍然受限。


关联概念

  • GUI智能体
  • 媒体后期制作
  • 组合式基准测试
  • 多模态对齐
  • 长周期任务规划

可操作项

可尝试使用CutVerse基准测试(代码开源在GitHub)评估现有GUI智能体在媒体编辑任务上的表现,或基于其结构化轨迹数据开发新的长周期规划算法。


原文: CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing
自动加工于 2026-05-21 08:07

#GUI智能体#基准测试#媒体编辑

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA