Uni-Edit提出了一种智能图像编辑任务,通过单一训练阶段和数据集,同时提升统一多模态模型的理解、生成和编辑能力。该方法利用自动化数据合成流水线,将多样化的VQA数据转化为复杂、推理密集的编辑指令,生成Uni-Edit-148k数据集。在BAGEL和Janus-Pro上的实验表明,仅使用Uni-Edit进行调优即可全面增强三种能力,无需辅助操作。
核心要点
- Uni-Edit是首个将图像编辑作为统一多模态模型(UMM)调优的通用任务的方法,仅需一个任务、一个训练阶段和一个数据集。
- 现有编辑数据依赖简单指令,未能充分利用模型的理解能力;Uni-Edit通过自动化数据合成流水线生成推理密集型指令。
- Uni-Edit-148k数据集包含14.8万对复杂编辑指令与高质量编辑图像,源自多样化VQA数据。
- 在BAGEL和Janus-Pro上的实验证明,仅使用Uni-Edit调优即可同时提升理解、生成和编辑能力,无需多阶段训练或数据混合。
- 该方法打破了传统混合多任务训练中性能权衡的范式,实现了三种能力的真正相互增强。
正文
当前,增强统一多模态模型(UMM)的图像理解、生成和编辑能力主要依赖混合多任务训练。由于任务间存在固有冲突,这种策略需要复杂的多阶段流水线、大量数据混合和平衡技巧,最终仅导致性能权衡而非真正的相互增强。
为打破这一范式,我们提出Uni-Edit,一种智能图像编辑任务,作为UMM调优的首个通用任务。与复杂的混合流水线不同,Uni-Edit仅使用一个任务、一个训练阶段和一个数据集,即可同时提升所有三种能力。
具体而言,我们首先识别出图像编辑本质上是一个理想的通用任务,因为它自然需要视觉理解和生成能力。然而,现有编辑数据依赖简单指令,严重低估了模型的理解能力。为解决此问题,我们引入了首个自动化、可扩展的数据合成流水线,用于智能编辑,将多样化的VQA数据转化为复杂且有效的编辑指令,其中嵌入了问题和嵌套逻辑。这产生了Uni-Edit-148k数据集,将多样化的推理密集型指令与高质量编辑图像配对。
在BAGEL和Janus-Pro上的大量实验表明,仅使用Uni-Edit进行调优即可全面增强所有三种能力,无需任何辅助操作。
关联概念
- 统一多模态模型(UMM)
- 图像编辑
- 多任务训练
- 数据合成流水线
- VQA数据
- 推理密集型指令
- BAGEL
- Janus-Pro
可操作项
可尝试使用Uni-Edit-148k数据集对现有的统一多模态模型(如BAGEL或Janus-Pro)进行单任务调优,验证其在理解、生成和编辑任务上的性能提升。此外,可探索将自动化数据合成流水线应用于其他领域,如视频编辑或3D场景编辑。
原文: Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
自动加工于 2026-05-21 08:09