CutVerse：面向媒体后期制作编辑的组合式GUI智能体基准

CutVerse是一个专门用于评估自主GUI智能体在真实媒体后期制作环境中能力的基准测试。它涵盖了7款专业应用（如Premiere Pro、Photoshop）中的186个复杂、长周期任务，并开发了轻量级解析器将屏幕录制和交互日志转化为结构化轨迹。评估显示，现有智能体在真实媒体编辑任务中成功率仅为36.0%，暴露出长周期可靠性和领域特定规划方面的不足。

核心要点

现有GUI智能体在专业创意工作流（如媒体后期制作）中的能力尚未被充分探索。
CutVerse基准测试包含7款专业应用（Premiere Pro、Photoshop等）和186个复杂长周期任务，基于真实编辑工作流。
开发了轻量级解析器，将原始屏幕录制和低层交互日志转化为结构化、组合式的GUI动作轨迹。
现有智能体在真实媒体编辑任务中成功率仅为36.0%，凸显了复杂长周期工作流的挑战。
当前模型在空间定位、多模态对齐和协调动作执行方面有潜力，但在长周期可靠性和领域特定规划上仍受限。

正文

尽管GUI智能体在网页导航和基本操作系统任务上取得了显著进展，但它们在专业创意工作流（如媒体后期制作）中的能力仍未被充分探索。为填补这一空白，我们引入了CutVerse，一个旨在系统评估自主GUI智能体在真实媒体后期制作环境中能力的基准测试。

我们整理了来自7款专业应用（例如Premiere Pro、Photoshop）的专家演示，覆盖了186个复杂、长周期任务，这些任务基于真实的编辑工作流，涉及密集的多模态界面和紧密耦合的交互序列。为支持可扩展评估，我们开发了一个轻量级解析器，将原始屏幕录制和低层交互日志转化为结构化、组合式的GUI动作轨迹，并带有精确的定位信息。

广泛评估显示，现有智能体在真实媒体编辑任务中仅达到36.0%的任务成功率，这突显了我们的基准测试中复杂、长周期媒体后期制作工作流所带来的挑战。尽管当前模型在空间定位、多模态对齐和协调动作执行方面展现出潜力，但它们在长周期可靠性和领域特定规划方面仍然受限。

关联概念

GUI智能体
媒体后期制作
组合式基准测试
多模态对齐
长周期任务规划

可操作项

可尝试使用CutVerse基准测试（代码开源在GitHub）评估现有GUI智能体在媒体编辑任务上的表现，或基于其结构化轨迹数据开发新的长周期规划算法。

原文: CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing
自动加工于 2026-05-21 08:07

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章