OScaR：面向LLM及更广领域的极端KV缓存量化的奥卡姆剃刀

OScaR是一种新型KV缓存压缩框架，通过沟渠化旋转和全token缩放解决token范数不平衡问题，在INT2量化下实现近无损性能。相比BF16 FlashDecoding-v2基线，解码速度提升3.0倍，内存占用减少5.3倍，吞吐量提升4.1倍。该框架轻量、通用，适用于文本、多模态及全模态大模型。

核心要点

识别Token范数不平衡是量化保真度的主要瓶颈，该问题在共享量化参数跨越范数差异大的token组时系统性放大误差。
提出OScaR框架，采用沟渠化旋转和全token缩放两步策略，高效缓解序列维度方差。
在INT2量化下实现近无损性能，优于现有方法，定义新的帕累托前沿。
相比BF16 FlashDecoding-v2基线，解码速度提升3.0倍，内存占用减少5.3倍，吞吐量提升4.1倍。
代码开源：https://github.com/ZunhaiSu/OScaR-KV-Quant

正文

随着长上下文推理和多模态智能的快速发展，键值缓存的内存占用已成为高效部署的主要瓶颈。虽然已有的逐通道量化能有效处理Key张量中的通道级离群值，但在极端压缩下效果下降。

本文从经验和理论角度重新审视逐通道量化范式的固有限制，识别出Token范数不平衡是量化保真度的主要瓶颈。研究表明，当共享量化参数需要覆盖范数差异显著的token组时，TNI会系统性放大误差。

不同于依赖复杂量化流水线的方法，作者提出OScaR框架，通过沟渠化旋转和全token缩放两步策略，有效且高效地缓解TNI引起的序列维度方差。该框架还包含优化的系统设计和CUDA内核。

在多种大模型上的广泛评估表明，OScaR在INT2量化下持续优于现有方法，实现近无损性能，成为鲁棒、低复杂度、通用的框架，定义了新的帕累托前沿。与BF16 FlashDecoding-v2基线相比，OScaR实现解码速度提升3.0倍，内存占用减少5.3倍，吞吐量提升4.1倍。

关联概念

KV缓存量化
Token范数不平衡
逐通道量化
沟渠化旋转
全token缩放
FlashDecoding

可操作项

访问开源代码仓库 https://github.com/ZunhaiSu/OScaR-KV-Quant，尝试在支持CUDA的环境下复现INT2量化实验，对比BF16基线的解码速度和内存占用。

原文: OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond
自动加工于 2026-05-21 08:09

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章