NGM：一种即插即用、无需训练的大语言模型记忆模块

NGM（N-gram Memory）是一种无需训练、即插即用的记忆模块，由因果N-gram编码器和余弦门控记忆注入器组成。它直接利用预训练词元嵌入构建N-gram表示，无需额外记忆表或检索管道。在Qwen3系列（0.6B至14B）的八项基准测试中，NGM平均提升0.5至1.2个点，在代码生成和知识密集型任务上提升尤为显著（如Qwen3-14B在LiveCodeBench上+3.0，GPQA上+3.03），在多模态基准上也有改进（如Qwen3-VL-2B在MMStar上+1.53）。

核心要点

NGM是一种无需训练、即插即用的记忆模块，由因果N-gram编码器和余弦门控记忆注入器组成。
因果N-gram编码器直接平均预训练词元嵌入来构建N-gram表示，无需额外训练或检索管道。
余弦门控记忆注入器使用非参数化余弦门控和ReLU将检索到的嵌入调制到上下文表示中。
在Qwen3系列（0.6B至14B）的八项基准测试中，NGM平均提升0.5至1.2个点。
在代码生成和知识密集型任务上提升显著：Qwen3-14B在LiveCodeBench上+3.0，GPQA上+3.03；多模态基准MMStar上+1.53。

正文

摘要

一种无需训练的N-gram记忆模块，通过直接利用预训练词元嵌入进行知识检索，无需额外的记忆表或检索管道，从而提升语言模型性能。

原始摘要

近期研究引入了条件记忆模块，将知识存储与神经计算解耦，实现了更直接的知识访问。与依赖动态计算路径的MoE相比，显式查找提供了更高效的知识检索机制。然而，这些方法仍然依赖于学习到的记忆嵌入，需要额外训练并限制了灵活性。为解决这一问题，我们提出了N-gram记忆（NGM），一种无需训练、即插即用的模块，由因果N-gram编码器和余弦门控记忆注入器组成。因果N-gram编码器直接平均骨干模型的预训练词元嵌入来构建N-gram表示，从而无需从头训练单独的N-gram嵌入。该设计既不需要额外的记忆表，也不需要检索管道。余弦门控记忆注入器随后使用非参数化余弦门控和ReLU将检索到的嵌入调制到上下文表示中。我们在Qwen3系列（0.6B至14B）的八项基准测试上评估了NGM。NGM平均提升0.5至1.2个点，在代码生成和知识密集型任务上提升尤为显著（例如，Qwen3-14B在LiveCodeBench上+3.0，GPQA上+3.03）。此外，NGM在多模态基准上也有改进（例如，Qwen3-VL-2B在MMStar上+1.53）。

延伸摘要

关联概念

N-gram记忆
因果N-gram编码器
余弦门控记忆注入器
预训练词元嵌入
知识检索
多模态基准
代码生成
知识密集型任务

可操作项

访问GitHub仓库（https://github.com/PioneerQyw/NGM）获取NGM模块的代码实现。
将NGM作为即插即用模块集成到现有的大语言模型（如Qwen3系列）中，无需额外训练。
在代码生成和知识密集型任务（如LiveCodeBench、GPQA）上测试NGM的性能提升。
在多模态模型（如Qwen3-VL）上尝试NGM，观察其在多模态基准（如MMStar）上的效果。

原文: NGM: A Plug-and-Play Training-Free Memory Module for LLMs
自动加工于 2026-05-20 11:28

核心要点

正文

摘要

原始摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章