MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

Uni-Edit:智能编辑作为统一模型调优的通用任务

阅读原文 ↗

Uni-Edit提出了一种智能图像编辑任务,通过单一训练阶段和数据集,同时提升统一多模态模型的理解、生成和编辑能力。该方法利用自动化数据合成流水线,将多样化的VQA数据转化为复杂、推理密集的编辑指令,生成Uni-Edit-148k数据集。在BAGEL和Janus-Pro上的实验表明,仅使用Uni-Edit进行调优即可全面增强三种能力,无需辅助操作。


核心要点

  1. Uni-Edit是首个将图像编辑作为统一多模态模型(UMM)调优的通用任务的方法,仅需一个任务、一个训练阶段和一个数据集。
  2. 现有编辑数据依赖简单指令,未能充分利用模型的理解能力;Uni-Edit通过自动化数据合成流水线生成推理密集型指令。
  3. Uni-Edit-148k数据集包含14.8万对复杂编辑指令与高质量编辑图像,源自多样化VQA数据。
  4. 在BAGEL和Janus-Pro上的实验证明,仅使用Uni-Edit调优即可同时提升理解、生成和编辑能力,无需多阶段训练或数据混合。
  5. 该方法打破了传统混合多任务训练中性能权衡的范式,实现了三种能力的真正相互增强。

正文

当前,增强统一多模态模型(UMM)的图像理解、生成和编辑能力主要依赖混合多任务训练。由于任务间存在固有冲突,这种策略需要复杂的多阶段流水线、大量数据混合和平衡技巧,最终仅导致性能权衡而非真正的相互增强。

为打破这一范式,我们提出Uni-Edit,一种智能图像编辑任务,作为UMM调优的首个通用任务。与复杂的混合流水线不同,Uni-Edit仅使用一个任务、一个训练阶段和一个数据集,即可同时提升所有三种能力。

具体而言,我们首先识别出图像编辑本质上是一个理想的通用任务,因为它自然需要视觉理解和生成能力。然而,现有编辑数据依赖简单指令,严重低估了模型的理解能力。为解决此问题,我们引入了首个自动化、可扩展的数据合成流水线,用于智能编辑,将多样化的VQA数据转化为复杂且有效的编辑指令,其中嵌入了问题和嵌套逻辑。这产生了Uni-Edit-148k数据集,将多样化的推理密集型指令与高质量编辑图像配对。

在BAGEL和Janus-Pro上的大量实验表明,仅使用Uni-Edit进行调优即可全面增强所有三种能力,无需任何辅助操作。


关联概念

  • 统一多模态模型(UMM)
  • 图像编辑
  • 多任务训练
  • 数据合成流水线
  • VQA数据
  • 推理密集型指令
  • BAGEL
  • Janus-Pro

可操作项

可尝试使用Uni-Edit-148k数据集对现有的统一多模态模型(如BAGEL或Janus-Pro)进行单任务调优,验证其在理解、生成和编辑任务上的性能提升。此外,可探索将自动化数据合成流水线应用于其他领域,如视频编辑或3D场景编辑。


原文: Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
自动加工于 2026-05-21 08:09

#多模态模型#图像编辑#数据合成

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA