MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-19 1 min read ★ ★ ★ ★ ☆

InsightTok:在自回归图像生成的离散分词中提升文本与面部保真度

阅读原文 ↗

InsightTok 是一种改进的离散视觉标记化框架,通过引入内容感知的感知损失,显著提升了文本和面部的重建质量。在保持通用重建性能的同时,使用16k码本和16倍下采样率,InsightTok 在文本和面部重建上优于先前方法,并有效迁移至自回归图像生成任务,生成更清晰的文本和更逼真的面部细节。


核心要点

  1. 离散标记化中的下采样和量化会丢失文本和面部的细粒度结构,导致生成质量下降。
  2. 标准离散标记化目标与文本可读性和面部保真度弱对齐,因它们优化通用重建而均匀压缩内容。
  3. InsightTok 通过局部、内容感知的感知损失增强文本和面部保真度,使用16k码本和16倍下采样率。
  4. InsightTok 在文本和面部重建上显著优于先前标记化器,且不牺牲通用重建质量。
  5. 改进的标记化器在自回归图像生成(InsightAR)中持续提升,生成更清晰的文本和更真实的面部细节。

正文

原始摘要

文本和面部是视觉生成中最具感知显著性和实际重要性的模式,但基于离散标记化的自回归生成器仍面临挑战。核心瓶颈在于标记化器:激进的下采样和量化往往会丢弃保留可读字形和独特面部特征所需的细粒度结构。我们将这一差距归因于标准离散标记化目标与文本可读性和面部保真度弱对齐,因为这些目标通常优化通用重建,同时均匀压缩多样内容。为解决此问题,我们提出 InsightTok,一种简单而有效的离散视觉标记化框架,通过局部、内容感知的感知损失增强文本和面部保真度。使用紧凑的16k码本和16倍下采样率,InsightTok 在文本和面部重建上显著优于先前标记化器,且不牺牲通用重建质量。这些改进持续迁移至 InsightAR 中的自回归图像生成,生成具有更清晰文本和更真实面部细节的图像。总体而言,我们的结果凸显了在标记化器训练中采用专门监督以推进离散图像生成的潜力。


关联概念

  • 离散视觉标记化
  • 自回归图像生成
  • 感知损失
  • 码本
  • 下采样

可操作项

可尝试使用 InsightTok 框架训练自定义标记化器,重点关注文本和面部区域的内容感知损失设计;参考其16k码本和16倍下采样配置,在自回归生成任务中评估文本可读性和面部保真度。


原文: InsightTok: Improving Text and Face Fidelity in Discrete Tokenization for Autoregressive Image Generation
自动加工于 2026-05-19 05:53

#离散视觉标记化#自回归图像生成#感知损失

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一多模态模型,通过协作多任务训练实现图像和视频的理解、生成与编辑,采用双流混合专家架构和共享交错多模态序列,探索不依赖规模扩展的实用范式。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练和弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA