MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

阅读原文 ↗

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制。它通过块联合KV选择(Block-Union KV Selection)将二维块稀疏掩码转换为GQA感知的每分组KV块表,从而在分页执行约束下实现最小化KV块表,并支持原位访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct模型上,CompactAttention在RULER基准测试中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速。


核心要点

  1. CompactAttention针对分块预填充场景设计,解决了现有稀疏注意力方法在分块预填充中效率低下的问题。
  2. 核心创新是块联合KV选择(Block-Union KV Selection),将2D块稀疏掩码转化为GQA感知的每分组KV块表。
  3. 通过Q块联合和组内联合,构建出满足分页执行约束的最小KV块表,实现原位访问,避免显式KV压缩开销。
  4. 在LLaMA-3.1-8B-Instruct上,128K上下文长度下注意力计算加速比高达2.72倍,且精度接近密集注意力。
  5. 与QUOKA相比,CompactAttention避免了查询子采样导致的KV条目遗漏和显式KV复制开销。

正文

摘要

分块预填充已成为长上下文大语言模型广泛采用的服务策略,但在此场景下高效计算注意力仍然具有挑战性。现有的稀疏注意力方法主要针对一次性预填充设计,无法高效迁移到分块预填充:当查询长度受限于块大小时,块稀疏内核会失去效率;而细粒度模式搜索在每次分块时重复扫描累积的KV缓存,成本高昂。QUOKA是一种直接针对分块预填充的最新方法,它避免了稀疏内核开销,但依赖于查询子采样和令牌级KV选择,这可能会遗漏查询特定的KV条目,并引入显式的KV复制开销。为了解决这些局限性,我们提出了CompactAttention,一种基于块联合KV选择的分块预填充注意力机制。CompactAttention将2D块稀疏掩码视为KV选择信号,而非直接的稀疏内核执行计划,并通过Q块联合和组内联合将其转换为GQA感知的每分组KV块表。这种构造在分页执行约束下生成最小的块表,保留输入掩码选择的所有KV块,从而允许选中的KV块被原位访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速。

延伸摘要

分块预填充已成为长上下文大语言模型广泛采用的服务策略,但在此场景下高效计算注意力仍然具有挑战性。现有的稀疏注意力方法主要针对一次性预填充设计,无法高效迁移到分块预填充:当查询长度受限于块大小时,块稀疏内核会失去效率;而细粒度模式搜索在每次分块时重复扫描累积的KV缓存,成本高昂。QUOKA是一种直接针对分块预填充的最新方法,它避免了稀疏内核开销,但依赖于查询子采样和令牌级KV选择,这可能会遗漏查询特定的KV条目,并引入显式的KV复制开销。为了解决这些局限性,我们提出了CompactAttention,一种基于块联合KV选择的分块预填充注意力机制。CompactAttention将2D块稀疏掩码视为KV选择信号,而非直接的稀疏内核执行计划,并通过Q块联合和组内联合将其转换为GQA感知的每分组KV块表。这种构造在分页执行约束下生成最小的块表,保留输入掩码选择的所有KV块,从而允许选中的KV块被原位访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速。


关联概念

  • 分块预填充 (Chunked Prefill)
  • 稀疏注意力 (Sparse Attention)
  • 块稀疏内核 (Block-Sparse Kernels)
  • KV选择 (KV Selection)
  • GQA (Grouped Query Attention)
  • 分页执行 (Paged Execution)

可操作项

可尝试在长上下文LLM推理服务中,将现有的分块预填充注意力机制替换为CompactAttention,并利用其开源代码(https://github.com/jiwonsong-dev/CompactAttention)进行实验验证。具体步骤包括:1. 安装依赖并配置模型(如LLaMA-3.1-8B-Instruct);2. 在分块预填充场景下,使用CompactAttention替代原始注意力模块;3. 在RULER等长上下文基准上测试精度和加速比。


原文: CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
自动加工于 2026-05-20 11:27

#注意力机制#长上下文#LLM#KV选择#分块预填充

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌在I/O大会上发布Gemini Omni多模态模型家族,能从图像、音频、文本等任意输入生成视频,并支持文本编辑照片和创建数字头像,内置SynthID水印防深度伪造。

阅读全文 →
↗
精选
AI·模型 TechCrunch 2026-05-21 ★ ★ ★ ★ ★

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍,优化版达12倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦回滚服务、数据流管理和训练组件,支持多策略协作训练和弹性扩展。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-21 ★ ★ ★ ★ ☆

EnvFactory:通过可执行环境合成和稳健强化学习扩展工具使用智能体

EnvFactory是一个全自动框架,通过从真实资源中自主探索并验证可执行工具环境,结合拓扑感知采样和校准精炼,合成自然的多轮轨迹,以解决智能体强化学习中可扩展执行环境缺乏和真实训练数据稀缺的问题。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA