Lance 是一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。它不依赖模型规模扩展或文本-图像主导设计,而是通过协作多任务训练探索统一多模态建模的实用范式。其核心原则包括统一上下文建模和解耦能力路径。Lance 采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习同时解耦理解与生成路径。引入模态感知旋转位置编码以减轻异构视觉标记间的干扰并提升跨任务对齐。采用分阶段多任务训练范式,结合能力导向目标和自适应数据调度,增强语义理解和视觉生成性能。实验表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强大的多模态理解能力。
核心要点
- Lance 是一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。
- 采用双流混合专家架构,在共享交错多模态序列上实现联合上下文学习与理解/生成路径解耦。
- 引入模态感知旋转位置编码,减轻异构视觉标记干扰并提升跨任务对齐。
- 采用分阶段多任务训练范式,结合能力导向目标和自适应数据调度,增强语义理解和视觉生成性能。
- 实验表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强大的多模态理解能力。
正文
原始摘要
我们提出了 Lance,一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。Lance 不依赖模型容量扩展或文本-图像主导设计,而是通过协作多任务训练探索统一多模态建模的实用范式。它基于两个核心原则:统一上下文建模和解耦能力路径。具体来说,Lance 从零开始训练,在共享交错多模态序列上采用双流混合专家架构,实现联合上下文学习同时解耦理解与生成路径。我们进一步引入模态感知旋转位置编码,以减轻异构视觉标记间的干扰并提升跨任务对齐。在训练过程中,Lance 采用分阶段多任务训练范式,结合能力导向目标和自适应数据调度,以增强语义理解和视觉生成性能。实验结果表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强大的多模态理解能力。主页地址为 https://lance-project.github.io。
延伸摘要
我们提出了 Lance,一个轻量级原生统一模型,支持图像和视频的多模态理解、生成与编辑。Lance 不依赖模型容量扩展或文本-图像主导设计,而是通过协作多任务训练探索统一多模态建模的实用范式。它基于两个核心原则:统一上下文建模和解耦能力路径。具体来说,Lance 从零开始训练,在共享交错多模态序列上采用双流混合专家架构,实现联合上下文学习同时解耦理解与生成路径。我们进一步引入模态感知旋转位置编码,以减轻异构视觉标记间的干扰并提升跨任务对齐。在训练过程中,Lance 采用分阶段多任务训练范式,结合能力导向目标和自适应数据调度,以增强语义理解和视觉生成性能。实验结果表明,Lance 在图像和视频生成上显著优于现有开源统一模型,同时保持强大的多模态理解能力。主页地址为 https://lance-project.github.io。
关联概念
- 混合专家架构 (Mixture-of-Experts)
- 多模态理解与生成
- 位置编码 (Rotary Positional Encoding)
原文: Lance: Unified Multimodal Modeling by Multi-Task Synergy
自动加工于 2026-05-20 11:27