找到 3 篇包含 "Transformer" 的文章

AI·模型 Hugging Face Daily Papers 2026-05-19

使用灯塔注意力进行长上下文预训练

本文提出灯塔注意力(Lighthouse Attention),一种训练专用的对称分层选择注意力算法,通过降低计算复杂度实现因果Transformer在超长序列上的高效训练。该方法包含自适应压缩/解压缩、对称池化保持因果性、两阶段训练等创新,在小型LLM预训练实验中达到更快的总训练速度。