CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制。它通过块联合KV选择(Block-Union KV Selection)将二维块稀疏掩码转换为GQA感知的每分组KV块表,从而在分页执行约束下实现最小化KV块表,并支持原位访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct模型上,CompactAttention在RULER基准测试中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速。
核心要点
- CompactAttention针对分块预填充场景设计,解决了现有稀疏注意力方法在分块预填充中效率低下的问题。
- 核心创新是块联合KV选择(Block-Union KV Selection),将2D块稀疏掩码转化为GQA感知的每分组KV块表。
- 通过Q块联合和组内联合,构建出满足分页执行约束的最小KV块表,实现原位访问,避免显式KV压缩开销。
- 在LLaMA-3.1-8B-Instruct上,128K上下文长度下注意力计算加速比高达2.72倍,且精度接近密集注意力。
- 与QUOKA相比,CompactAttention避免了查询子采样导致的KV条目遗漏和显式KV复制开销。
正文
摘要
分块预填充已成为长上下文大语言模型广泛采用的服务策略,但在此场景下高效计算注意力仍然具有挑战性。现有的稀疏注意力方法主要针对一次性预填充设计,无法高效迁移到分块预填充:当查询长度受限于块大小时,块稀疏内核会失去效率;而细粒度模式搜索在每次分块时重复扫描累积的KV缓存,成本高昂。QUOKA是一种直接针对分块预填充的最新方法,它避免了稀疏内核开销,但依赖于查询子采样和令牌级KV选择,这可能会遗漏查询特定的KV条目,并引入显式的KV复制开销。为了解决这些局限性,我们提出了CompactAttention,一种基于块联合KV选择的分块预填充注意力机制。CompactAttention将2D块稀疏掩码视为KV选择信号,而非直接的稀疏内核执行计划,并通过Q块联合和组内联合将其转换为GQA感知的每分组KV块表。这种构造在分页执行约束下生成最小的块表,保留输入掩码选择的所有KV块,从而允许选中的KV块被原位访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速。
延伸摘要
分块预填充已成为长上下文大语言模型广泛采用的服务策略,但在此场景下高效计算注意力仍然具有挑战性。现有的稀疏注意力方法主要针对一次性预填充设计,无法高效迁移到分块预填充:当查询长度受限于块大小时,块稀疏内核会失去效率;而细粒度模式搜索在每次分块时重复扫描累积的KV缓存,成本高昂。QUOKA是一种直接针对分块预填充的最新方法,它避免了稀疏内核开销,但依赖于查询子采样和令牌级KV选择,这可能会遗漏查询特定的KV条目,并引入显式的KV复制开销。为了解决这些局限性,我们提出了CompactAttention,一种基于块联合KV选择的分块预填充注意力机制。CompactAttention将2D块稀疏掩码视为KV选择信号,而非直接的稀疏内核执行计划,并通过Q块联合和组内联合将其转换为GQA感知的每分组KV块表。这种构造在分页执行约束下生成最小的块表,保留输入掩码选择的所有KV块,从而允许选中的KV块被原位访问,无需显式KV压缩。在LLaMA-3.1-8B-Instruct上,CompactAttention在RULER基准测试中保持了接近密集注意力的精度,同时在128K上下文长度下实现了高达2.72倍的注意力加速。
关联概念
- 分块预填充 (Chunked Prefill)
- 稀疏注意力 (Sparse Attention)
- 块稀疏内核 (Block-Sparse Kernels)
- KV选择 (KV Selection)
- GQA (Grouped Query Attention)
- 分页执行 (Paged Execution)
可操作项
可尝试在长上下文LLM推理服务中,将现有的分块预填充注意力机制替换为CompactAttention,并利用其开源代码(https://github.com/jiwonsong-dev/CompactAttention)进行实验验证。具体步骤包括:1. 安装依赖并配置模型(如LLaMA-3.1-8B-Instruct);2. 在分块预填充场景下,使用CompactAttention替代原始注意力模块;3. 在RULER等长上下文基准上测试精度和加速比。
原文: CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection
自动加工于 2026-05-20 11:27