MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

NGM:一种即插即用、无需训练的大语言模型记忆模块

阅读原文 ↗

NGM(N-gram Memory)是一种无需训练、即插即用的记忆模块,由因果N-gram编码器和余弦门控记忆注入器组成。它直接利用预训练词元嵌入构建N-gram表示,无需额外记忆表或检索管道。在Qwen3系列(0.6B至14B)的八项基准测试中,NGM平均提升0.5至1.2个点,在代码生成和知识密集型任务上提升尤为显著(如Qwen3-14B在LiveCodeBench上+3.0,GPQA上+3.03),在多模态基准上也有改进(如Qwen3-VL-2B在MMStar上+1.53)。


核心要点

  1. NGM是一种无需训练、即插即用的记忆模块,由因果N-gram编码器和余弦门控记忆注入器组成。
  2. 因果N-gram编码器直接平均预训练词元嵌入来构建N-gram表示,无需额外训练或检索管道。
  3. 余弦门控记忆注入器使用非参数化余弦门控和ReLU将检索到的嵌入调制到上下文表示中。
  4. 在Qwen3系列(0.6B至14B)的八项基准测试中,NGM平均提升0.5至1.2个点。
  5. 在代码生成和知识密集型任务上提升显著:Qwen3-14B在LiveCodeBench上+3.0,GPQA上+3.03;多模态基准MMStar上+1.53。

正文

摘要

一种无需训练的N-gram记忆模块,通过直接利用预训练词元嵌入进行知识检索,无需额外的记忆表或检索管道,从而提升语言模型性能。

原始摘要

近期研究引入了条件记忆模块,将知识存储与神经计算解耦,实现了更直接的知识访问。与依赖动态计算路径的MoE相比,显式查找提供了更高效的知识检索机制。然而,这些方法仍然依赖于学习到的记忆嵌入,需要额外训练并限制了灵活性。为解决这一问题,我们提出了N-gram记忆(NGM),一种无需训练、即插即用的模块,由因果N-gram编码器和余弦门控记忆注入器组成。因果N-gram编码器直接平均骨干模型的预训练词元嵌入来构建N-gram表示,从而无需从头训练单独的N-gram嵌入。该设计既不需要额外的记忆表,也不需要检索管道。余弦门控记忆注入器随后使用非参数化余弦门控和ReLU将检索到的嵌入调制到上下文表示中。我们在Qwen3系列(0.6B至14B)的八项基准测试上评估了NGM。NGM平均提升0.5至1.2个点,在代码生成和知识密集型任务上提升尤为显著(例如,Qwen3-14B在LiveCodeBench上+3.0,GPQA上+3.03)。此外,NGM在多模态基准上也有改进(例如,Qwen3-VL-2B在MMStar上+1.53)。

延伸摘要

近期研究引入了条件记忆模块,将知识存储与神经计算解耦,实现了更直接的知识访问。与依赖动态计算路径的MoE相比,显式查找提供了更高效的知识检索机制。然而,这些方法仍然依赖于学习到的记忆嵌入,需要额外训练并限制了灵活性。为解决这一问题,我们提出了N-gram记忆(NGM),一种无需训练、即插即用的模块,由因果N-gram编码器和余弦门控记忆注入器组成。因果N-gram编码器直接平均骨干模型的预训练词元嵌入来构建N-gram表示,从而无需从头训练单独的N-gram嵌入。该设计既不需要额外的记忆表,也不需要检索管道。余弦门控记忆注入器随后使用非参数化余弦门控和ReLU将检索到的嵌入调制到上下文表示中。我们在Qwen3系列(0.6B至14B)的八项基准测试上评估了NGM。NGM平均提升0.5至1.2个点,在代码生成和知识密集型任务上提升尤为显著(例如,Qwen3-14B在LiveCodeBench上+3.0,GPQA上+3.03)。此外,NGM在多模态基准上也有改进(例如,Qwen3-VL-2B在MMStar上+1.53)。


关联概念

  • N-gram记忆
  • 因果N-gram编码器
  • 余弦门控记忆注入器
  • 预训练词元嵌入
  • 知识检索
  • 多模态基准
  • 代码生成
  • 知识密集型任务

可操作项

  1. 访问GitHub仓库(https://github.com/PioneerQyw/NGM)获取NGM模块的代码实现。
  2. 将NGM作为即插即用模块集成到现有的大语言模型(如Qwen3系列)中,无需额外训练。
  3. 在代码生成和知识密集型任务(如LiveCodeBench、GPQA)上测试NGM的性能提升。
  4. 在多模态模型(如Qwen3-VL)上尝试NGM,观察其在多模态基准(如MMStar)上的效果。

原文: NGM: A Plug-and-Play Training-Free Memory Module for LLMs
自动加工于 2026-05-20 11:28

#大语言模型#记忆模块#N-gram

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA