MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

OScaR:面向LLM及更广领域的极端KV缓存量化的奥卡姆剃刀

阅读原文 ↗

OScaR是一种新型KV缓存压缩框架,通过沟渠化旋转和全token缩放解决token范数不平衡问题,在INT2量化下实现近无损性能。相比BF16 FlashDecoding-v2基线,解码速度提升3.0倍,内存占用减少5.3倍,吞吐量提升4.1倍。该框架轻量、通用,适用于文本、多模态及全模态大模型。


核心要点

  1. 识别Token范数不平衡是量化保真度的主要瓶颈,该问题在共享量化参数跨越范数差异大的token组时系统性放大误差。
  2. 提出OScaR框架,采用沟渠化旋转和全token缩放两步策略,高效缓解序列维度方差。
  3. 在INT2量化下实现近无损性能,优于现有方法,定义新的帕累托前沿。
  4. 相比BF16 FlashDecoding-v2基线,解码速度提升3.0倍,内存占用减少5.3倍,吞吐量提升4.1倍。
  5. 代码开源:https://github.com/ZunhaiSu/OScaR-KV-Quant

正文

随着长上下文推理和多模态智能的快速发展,键值缓存的内存占用已成为高效部署的主要瓶颈。虽然已有的逐通道量化能有效处理Key张量中的通道级离群值,但在极端压缩下效果下降。

本文从经验和理论角度重新审视逐通道量化范式的固有限制,识别出Token范数不平衡是量化保真度的主要瓶颈。研究表明,当共享量化参数需要覆盖范数差异显著的token组时,TNI会系统性放大误差。

不同于依赖复杂量化流水线的方法,作者提出OScaR框架,通过沟渠化旋转和全token缩放两步策略,有效且高效地缓解TNI引起的序列维度方差。该框架还包含优化的系统设计和CUDA内核。

在多种大模型上的广泛评估表明,OScaR在INT2量化下持续优于现有方法,实现近无损性能,成为鲁棒、低复杂度、通用的框架,定义了新的帕累托前沿。与BF16 FlashDecoding-v2基线相比,OScaR实现解码速度提升3.0倍,内存占用减少5.3倍,吞吐量提升4.1倍。


关联概念

  • KV缓存量化
  • Token范数不平衡
  • 逐通道量化
  • 沟渠化旋转
  • 全token缩放
  • FlashDecoding

可操作项

访问开源代码仓库 https://github.com/ZunhaiSu/OScaR-KV-Quant,尝试在支持CUDA的环境下复现INT2量化实验,对比BF16基线的解码速度和内存占用。


原文: OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond
自动加工于 2026-05-21 08:09

#KV缓存量化#LLM推理优化#INT2量化

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA