使用灯塔注意力进行长上下文预训练

本文提出灯塔注意力（Lighthouse Attention），一种训练专用的对称分层选择注意力算法，通过降低计算复杂度实现因果Transformer在超长序列上的高效训练。该方法包含自适应压缩/解压缩、对称池化保持因果性、两阶段训练（预训练+恢复）等创新，在小型LLM预训练实验中达到更快的总训练时间和更低的最终损失。

核心要点

提出次二次复杂度的分层预处理/后处理步骤，实现序列的自适应压缩与解压缩
对称压缩策略同时池化查询、键和值，保持从左到右的因果性，大幅提升并行性
两阶段训练：大部分时间使用灯塔注意力预训练，最后通过短训练恢复全注意力模型
在小型LLM预训练实验中，与全注意力训练相比，总训练时间更快且恢复阶段后最终损失更低
算法为训练专用，可轻松移除，且分层选择无梯度，避免复杂反向传播

正文

原始摘要

在极端序列长度上训练因果Transformer受到缩放点积注意力（SDPA）二次时间和内存的瓶颈限制。本文提出灯塔注意力，一种训练专用的对称选择分层注意力算法，它包裹普通SDPA，并可在训练结束时轻松移除。我们的分层选择也是无梯度的，这使我们免于处理复杂且可能低效的反向传播核。我们的贡献有三方面：(i) 一个次二次复杂度的分层预处理和后处理步骤，对序列进行自适应压缩和解压缩。(ii) 一种对称压缩策略，同时池化查询、键和值，同时保持从左到右的因果性，大大提高了并行性。(iii) 一种两阶段训练方法：大部分时间使用灯塔注意力进行预训练，最后通过短训练恢复全注意力模型。我们进行了初步的小规模LLM预训练实验，在所有其他设置匹配的情况下，与全注意力训练相比，我们的方法实现了更快的总训练时间和恢复阶段后更低的最终损失。完整代码见：https://github.com/ighoshsubho/lighthouse-attention

关联概念

缩放点积注意力 (SDPA)
因果Transformer
分层注意力
次二次复杂度
两阶段训练

可操作项

可尝试在小型LLM预训练任务中实现灯塔注意力，使用提供的代码库（https://github.com/ighoshsubho/lighthouse-attention）进行实验，对比全注意力训练的训练时间和最终损失。

原文: Long Context Pre-Training with Lighthouse Attention
自动加工于 2026-05-19 05:53

核心要点

正文

原始摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章