MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

Aurora:使用工具代理的统一视频编辑框架

阅读原文 ↗

Aurora 是一个基于代理的视频编辑框架,它将视觉语言模型(VLM)代理与统一的视频扩散变换器相结合。该框架旨在解决用户请求中常见的文本和视觉信息不明确问题。VLM 代理将原始用户请求映射为结构化的编辑计划,并选择参考图像,从而在生成前消除歧义。通过监督数据和偏好对训练代理,并引入 AgentEdit-Bench 基准进行评估。实验表明,Aurora 优于仅基于指令的基线方法,且 VLM 代理可迁移至其他兼容的视频编辑模型。


核心要点

  1. Aurora 结合了工具增强的 VLM 代理和统一的视频扩散变换器,以处理视频编辑请求中的文本和视觉不明确性。
  2. VLM 代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划,解决生成前的文本和视觉不明确性。
  3. 使用监督数据训练 VLM 代理以完成编辑计划和参考图像选择,并使用偏好对增强工具使用和指令细化。
  4. 引入 AgentEdit-Bench 基准,用于评估在文本和视觉不明确性下的代理增强视频编辑。
  5. 在 AgentEdit-Bench 和两个现有视频编辑基准上的实验表明,Aurora 优于仅基于指令的基线,且 VLM 代理可迁移至兼容的冻结视频编辑模型。

正文

原始摘要

最近的视频编辑模型已收敛于统一的条件设计:单个扩散变换器联合处理文本、源视频和参考图像,一组权重涵盖替换、移除、风格迁移和参考驱动插入。这种设计很灵活,但它假设用户已经提供了模型就绪的文本、参考图像和局部编辑的空间定位,而实际请求中往往缺少这些。我们提出了 Aurora,一个基于代理的视频编辑框架,它将工具增强的视觉语言模型(VLM)代理与统一的视频扩散变换器配对。VLM 代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划,从而在生成前解决文本和视觉不明确性。我们使用监督数据训练 VLM 代理以完成编辑计划和参考图像选择,并使用偏好对增强工具使用和指令细化。我们引入了 AgentEdit-Bench 基准,用于评估在文本和视觉不明确性下的代理增强视频编辑。在 AgentEdit-Bench 和两个现有视频编辑基准上的实验表明,Aurora 优于仅基于指令的基线,且 VLM 代理可迁移至兼容的冻结视频编辑模型。项目页面:https://yeates.github.io/Aurora-Page

延伸摘要

最近的视频编辑模型已收敛于统一的条件设计:单个扩散变换器联合处理文本、源视频和参考图像,一组权重涵盖替换、移除、风格迁移和参考驱动插入。这种设计很灵活,但它假设用户已经提供了模型就绪的文本、参考图像和局部编辑的空间定位,而实际请求中往往缺少这些。我们提出了 Aurora,一个基于代理的视频编辑框架,它将工具增强的视觉语言模型(VLM)代理与统一的视频扩散变换器配对。VLM 代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划,从而在生成前解决文本和视觉不明确性。我们使用监督数据训练 VLM 代理以完成编辑计划和参考图像选择,并使用偏好对增强工具使用和指令细化。我们引入了 AgentEdit-Bench 基准,用于评估在文本和视觉不明确性下的代理增强视频编辑。在 AgentEdit-Bench 和两个现有视频编辑基准上的实验表明,Aurora 优于仅基于指令的基线,且 VLM 代理可迁移至兼容的冻结视频编辑模型。项目页面:https://yeates.github.io/Aurora-Page


关联概念

  • 视觉语言模型(VLM)
  • 扩散变换器
  • 代理增强
  • 视频编辑
  • AgentEdit-Bench

可操作项

  1. 访问项目页面 https://yeates.github.io/Aurora-Page 获取更多细节和演示。
  2. 查看代码仓库 https://github.com/yeates/Aurora 以了解实现细节和如何使用 Aurora 框架。
  3. 尝试在 AgentEdit-Bench 基准上评估自己的视频编辑模型,以比较性能。
  4. 考虑将 VLM 代理集成到现有的视频编辑模型中,以处理用户请求中的不明确性。

原文: Aurora: Unified Video Editing with a Tool-Using Agent
自动加工于 2026-05-21 01:54

#视频编辑#视觉语言模型#扩散模型#代理框架

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA