使用灯塔注意力进行长上下文预训练
本文提出灯塔注意力(Lighthouse Attention),一种训练专用的对称分层选择注意力算法,通过降低计算复杂度实现因果Transformer在超长序列上的高效训练。该方法包含自适应压缩/解压缩、对称池化保持因果性、两阶段训练等创新,在小型LLM预训练实验中达到更快的总训练速度。
找到 7 篇包含 "LLM" 的文章
本文提出灯塔注意力(Lighthouse Attention),一种训练专用的对称分层选择注意力算法,通过降低计算复杂度实现因果Transformer在超长序列上的高效训练。该方法包含自适应压缩/解压缩、对称池化保持因果性、两阶段训练等创新,在小型LLM预训练实验中达到更快的总训练速度。
Solvita 是一个智能体进化框架,通过强化学习更新图结构知识网络,实现代码生成的持续学习,无需更新底层 LLM 权重。它由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成,形成策略选择、程序合成、认证监督和定向攻击的闭环系统。
本文综述了从Gemma 4到DeepSeek V4等新型开源大语言模型在降低长上下文成本方面的关键技术:KV共享、多头压缩注意力(mHC)以及压缩注意力机制。这些方法通过减少内存占用和计算量,使LLM能高效处理超长序列。
本文探讨了DeepSeek-V4-Flash模型如何通过改进架构和训练方法,在可控性和灵活性上取得突破,重新激发对LLM操控的兴趣,使开发者能更精细地引导模型行为。
Orthrus 是一种通过双视角扩散解码实现快速、无损的大语言模型推理方法,利用两个视角的协同扩散加速推理过程,适用于高效部署场景。
earendil-works/pi 是一个面向 AI 智能体的综合工具包,包含编码智能体命令行界面、统一 LLM API、终端 UI 与 Web UI 库、Slack 机器人以及 vLLM 推理集群支持,旨在简化 AI 应用的开发与部署。
datasette-llm-limits 0.1a0 是一个 Datasette 插件,用于设置 LLM 使用的消费限制,支持按用户或全局配置。