LLM架构最新进展：KV共享、mHC与压缩注意力

本文综述了从Gemma 4到DeepSeek V4等新型开源大语言模型在降低长上下文成本方面的关键技术：KV共享（跨层键值缓存复用）、多头压缩注意力（mHC）以及压缩注意力机制。这些方法通过减少内存占用和计算量，使LLM能高效处理超长序列，…