CompactAttention：通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制。它通过块联合KV选择（Block-Union KV Selection）将二维块稀疏掩码转换为GQA感知的每分组KV块表，从而在分页执行约束下实现最小化KV块表，并支持原位访问，无需显式KV压缩。在LLaMA-3.1-8B-Instruct模型上，CompactAttention在RULER基准测试中保持了接近密集注意力的精度，同时在128K上下文长度下实现了高达2.72倍的注意力加速。

核心要点

CompactAttention针对分块预填充场景设计，解决了现有稀疏注意力方法在分块预填充中效率低下的问题。
核心创新是块联合KV选择（Block-Union KV Selection），将2D块稀疏掩码转化为GQA感知的每分组KV块表。
通过Q块联合和组内联合，构建出满足分页执行约束的最小KV块表，实现原位访问，避免显式KV压缩开销。
在LLaMA-3.1-8B-Instruct上，128K上下文长度下注意力计算加速比高达2.72倍，且精度接近密集注意力。
与QUOKA相比，CompactAttention避免了查询子采样导致的KV条目遗漏和显式KV复制开销。

正文

摘要

分块预填充已成为长上下文大语言模型广泛采用的服务策略，但在此场景下高效计算注意力仍然具有挑战性。现有的稀疏注意力方法主要针对一次性预填充设计，无法高效迁移到分块预填充：当查询长度受限于块大小时，块稀疏内核会失去效率；而细粒度模式搜索在每次分块时重复扫描累积的KV缓存，成本高昂。QUOKA是一种直接针对分块预填充的最新方法，它避免了稀疏内核开销，但依赖于查询子采样和令牌级KV选择，这可能会遗漏查询特定的KV条目，并引入显式的KV复制开销。为了解决这些局限性，我们提出了CompactAttention，一种基于块联合KV选择的分块预填充注意力机制。CompactAttention将2D块稀疏掩码视为KV选择信号，而非直接的稀疏内核执行计划，并通过Q块联合和组内联合将其转换为GQA感知的每分组KV块表。这种构造在分页执行约束下生成最小的块表，保留输入掩码选择的所有KV块，从而允许选中的KV块被原位访问，无需显式KV压缩。在LLaMA-3.1-8B-Instruct上，CompactAttention在RULER基准测试中保持了接近密集注意力的精度，同时在128K上下文长度下实现了高达2.72倍的注意力加速。

延伸摘要

关联概念

分块预填充 (Chunked Prefill)
稀疏注意力 (Sparse Attention)
块稀疏内核 (Block-Sparse Kernels)
KV选择 (KV Selection)
GQA (Grouped Query Attention)
分页执行 (Paged Execution)

可操作项

可尝试在长上下文LLM推理服务中，将现有的分块预填充注意力机制替换为CompactAttention，并利用其开源代码（https://github.com/jiwonsong-dev/CompactAttention）进行实验验证。具体步骤包括：1. 安装依赖并配置模型（如LLaMA-3.1-8B-Instruct）；2. 在分块预填充场景下，使用CompactAttention替代原始注意力模块；3. 在RULER等长上下文基准上测试精度和加速比。

原文: CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
自动加工于 2026-05-20 11:27

核心要点

正文

摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌Gemini Omni将图像、音频和文本转化为视频——这仅仅是个开始

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

AstraFlow：面向数据流的智能体大语言模型强化学习系统

EnvFactory：通过可执行环境合成和稳健强化学习扩展工具使用智能体

更多 AI·模型文章