MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

Aurora:使用工具代理的统一视频编辑框架

阅读原文 ↗

Aurora 是一个代理式视频编辑框架,它将视觉语言模型(VLM)代理与统一的视频扩散变换器相结合。该框架旨在解决用户请求中常见的文本和视觉信息不明确问题。VLM 代理将原始用户请求映射为结构化的编辑计划,并自动选择参考图像,从而在生成前消除歧义。通过监督数据和偏好对训练,Aurora 在 AgentEdit-Bench 等基准测试中显著优于仅依赖指令的基线方法,并展现出良好的迁移能力。


核心要点

  1. Aurora 提出了一种代理式视频编辑框架,将 VLM 代理与统一的视频扩散变换器结合,以处理用户请求中的文本和视觉信息不明确问题。
  2. VLM 代理将原始用户请求映射为结构化的编辑计划,自动选择参考图像,并填充模型所需的输入通道。
  3. 训练策略包括监督数据(用于完整编辑计划和参考图像选择)和偏好对(用于鲁棒的工具使用和指令细化)。
  4. 引入 AgentEdit-Bench 基准,专门评估在文本和视觉信息不明确条件下的代理增强视频编辑性能。
  5. 实验表明,Aurora 在 AgentEdit-Bench 和两个现有视频编辑基准上均优于仅依赖指令的基线方法,且 VLM 代理可迁移至兼容的冻结视频编辑模型。

正文

最近的视频编辑模型已收敛于一种统一的条件设计:单个扩散变换器联合处理文本、源视频和参考图像,一组权重即可覆盖替换、移除、风格迁移和参考驱动插入等任务。这种设计灵活,但它假设用户已经提供了模型就绪的文本、参考图像和局部编辑的空间定位,而实际请求中这些信息往往缺失。

我们提出 Aurora,一个代理式视频编辑框架,它将工具增强的视觉语言模型(VLM)代理与统一的视频扩散变换器配对。VLM 代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划,从而在生成前解决文本和视觉信息不明确的问题。我们使用监督数据训练 VLM 代理,用于完整的编辑计划和参考图像选择,同时使用偏好对训练,以实现鲁棒的工具使用和指令细化。

我们引入 AgentEdit-Bench 来评估在文本和视觉信息不明确条件下代理增强的视频编辑。在 AgentEdit-Bench 和两个现有视频编辑基准上的实验表明,Aurora 优于仅依赖指令的基线方法,并且 VLM 代理可迁移至兼容的冻结视频编辑模型。

项目页面:https://yeates.github.io/Aurora-Page


关联概念

  • 视频编辑模型
  • 扩散变换器
  • 视觉语言模型
  • 代理增强
  • 监督数据
  • 偏好对
  • AgentEdit-Bench

可操作项

访问项目页面 https://yeates.github.io/Aurora-Page 获取代码和模型;在 AgentEdit-Bench 上评估自己的视频编辑方法;尝试将 VLM 代理集成到现有的视频编辑模型中。


原文: Aurora: Unified Video Editing with a Tool-Using Agent
自动加工于 2026-05-20 11:26

#视频编辑#视觉语言模型#扩散模型#代理框架

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一多模态模型,通过协作多任务训练实现图像和视频的理解、生成与编辑,采用双流混合专家架构和共享交错多模态序列,探索不依赖规模扩展的实用范式。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练和弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA