Uni-Edit：智能编辑作为统一模型调优的通用任务

Uni-Edit提出了一种智能图像编辑任务，通过单一训练阶段和数据集，同时提升统一多模态模型的理解、生成和编辑能力。该方法利用自动化数据合成流水线，将多样化的VQA数据转化为复杂、推理密集的编辑指令，生成Uni-Edit-148k数据集。在BAGEL和Janus-Pro上的实验表明，仅使用Uni-Edit进行调优即可全面增强三种能力，无需辅助操作。

核心要点

Uni-Edit是首个将图像编辑作为统一多模态模型（UMM）调优的通用任务的方法，仅需一个任务、一个训练阶段和一个数据集。
现有编辑数据依赖简单指令，未能充分利用模型的理解能力；Uni-Edit通过自动化数据合成流水线生成推理密集型指令。
Uni-Edit-148k数据集包含14.8万对复杂编辑指令与高质量编辑图像，源自多样化VQA数据。
在BAGEL和Janus-Pro上的实验证明，仅使用Uni-Edit调优即可同时提升理解、生成和编辑能力，无需多阶段训练或数据混合。
该方法打破了传统混合多任务训练中性能权衡的范式，实现了三种能力的真正相互增强。

正文

当前，增强统一多模态模型（UMM）的图像理解、生成和编辑能力主要依赖混合多任务训练。由于任务间存在固有冲突，这种策略需要复杂的多阶段流水线、大量数据混合和平衡技巧，最终仅导致性能权衡而非真正的相互增强。

为打破这一范式，我们提出Uni-Edit，一种智能图像编辑任务，作为UMM调优的首个通用任务。与复杂的混合流水线不同，Uni-Edit仅使用一个任务、一个训练阶段和一个数据集，即可同时提升所有三种能力。

具体而言，我们首先识别出图像编辑本质上是一个理想的通用任务，因为它自然需要视觉理解和生成能力。然而，现有编辑数据依赖简单指令，严重低估了模型的理解能力。为解决此问题，我们引入了首个自动化、可扩展的数据合成流水线，用于智能编辑，将多样化的VQA数据转化为复杂且有效的编辑指令，其中嵌入了问题和嵌套逻辑。这产生了Uni-Edit-148k数据集，将多样化的推理密集型指令与高质量编辑图像配对。

在BAGEL和Janus-Pro上的大量实验表明，仅使用Uni-Edit进行调优即可全面增强所有三种能力，无需任何辅助操作。

关联概念

统一多模态模型（UMM）
图像编辑
多任务训练
数据合成流水线
VQA数据
推理密集型指令
BAGEL
Janus-Pro

可操作项

可尝试使用Uni-Edit-148k数据集对现有的统一多模态模型（如BAGEL或Janus-Pro）进行单任务调优，验证其在理解、生成和编辑任务上的性能提升。此外，可探索将自动化数据合成流水线应用于其他领域，如视频编辑或3D场景编辑。

原文: Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
自动加工于 2026-05-21 08:09

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章