Aurora 是一个代理式视频编辑框架,它将视觉语言模型(VLM)代理与统一的视频扩散变换器相结合。该框架旨在解决用户请求中常见的文本和视觉信息不明确问题。VLM 代理将原始用户请求映射为结构化的编辑计划,并自动选择参考图像,从而在生成前消除歧义。通过监督数据和偏好对训练,Aurora 在 AgentEdit-Bench 等基准测试中显著优于仅依赖指令的基线方法,并展现出良好的迁移能力。
核心要点
- Aurora 提出了一种代理式视频编辑框架,将 VLM 代理与统一的视频扩散变换器结合,以处理用户请求中的文本和视觉信息不明确问题。
- VLM 代理将原始用户请求映射为结构化的编辑计划,自动选择参考图像,并填充模型所需的输入通道。
- 训练策略包括监督数据(用于完整编辑计划和参考图像选择)和偏好对(用于鲁棒的工具使用和指令细化)。
- 引入 AgentEdit-Bench 基准,专门评估在文本和视觉信息不明确条件下的代理增强视频编辑性能。
- 实验表明,Aurora 在 AgentEdit-Bench 和两个现有视频编辑基准上均优于仅依赖指令的基线方法,且 VLM 代理可迁移至兼容的冻结视频编辑模型。
正文
最近的视频编辑模型已收敛于一种统一的条件设计:单个扩散变换器联合处理文本、源视频和参考图像,一组权重即可覆盖替换、移除、风格迁移和参考驱动插入等任务。这种设计灵活,但它假设用户已经提供了模型就绪的文本、参考图像和局部编辑的空间定位,而实际请求中这些信息往往缺失。
我们提出 Aurora,一个代理式视频编辑框架,它将工具增强的视觉语言模型(VLM)代理与统一的视频扩散变换器配对。VLM 代理将原始用户请求映射为与变换器条件通道对齐的结构化编辑计划,从而在生成前解决文本和视觉信息不明确的问题。我们使用监督数据训练 VLM 代理,用于完整的编辑计划和参考图像选择,同时使用偏好对训练,以实现鲁棒的工具使用和指令细化。
我们引入 AgentEdit-Bench 来评估在文本和视觉信息不明确条件下代理增强的视频编辑。在 AgentEdit-Bench 和两个现有视频编辑基准上的实验表明,Aurora 优于仅依赖指令的基线方法,并且 VLM 代理可迁移至兼容的冻结视频编辑模型。
项目页面:https://yeates.github.io/Aurora-Page
关联概念
- 视频编辑模型
- 扩散变换器
- 视觉语言模型
- 代理增强
- 监督数据
- 偏好对
- AgentEdit-Bench
可操作项
访问项目页面 https://yeates.github.io/Aurora-Page 获取代码和模型;在 AgentEdit-Bench 上评估自己的视频编辑方法;尝试将 VLM 代理集成到现有的视频编辑模型中。
原文: Aurora: Unified Video Editing with a Tool-Using Agent
自动加工于 2026-05-20 11:26