搜索: LLM

找到 7 篇包含 "LLM" 的文章

AI·模型

Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

使用灯塔注意力进行长上下文预训练

本文提出灯塔注意力（Lighthouse Attention），一种训练专用的对称分层选择注意力算法，通过降低计算复杂度实现因果Transformer在超长序列上的高效训练。该方法包含自适应压缩/解压缩、对称池化保持因果性、两阶段训练等创新，在小型LLM预训练实验中达到更快的总训练速度。

AI·模型

Hugging Face Daily Papers 2026-05-19 ★ ★ ★ ★ ☆

Solvita 是一个智能体进化框架，通过强化学习更新图结构知识网络，实现代码生成的持续学习，无需更新底层 LLM 权重。它由 Planner、Solver、Oracle 和 Hacker 四个专用智能体组成，形成策略选择、程序合成、认证监督和定向攻击的闭环系统。

AI·模型

Sebastian Raschka 2026-05-17 ★ ★ ★ ★ ☆

本文综述了从Gemma 4到DeepSeek V4等新型开源大语言模型在降低长上下文成本方面的关键技术：KV共享、多头压缩注意力（mHC）以及压缩注意力机制。这些方法通过减少内存占用和计算量，使LLM能高效处理超长序列。

AI·模型

Hacker News 2026-05-17 ★ ★ ★ ★ ☆

本文探讨了DeepSeek-V4-Flash模型如何通过改进架构和训练方法，在可控性和灵活性上取得突破，重新激发对LLM操控的兴趣，使开发者能更精细地引导模型行为。

AI·模型

GitHub Trending 2026-05-17 ★ ★ ★ ★ ☆

Orthrus 是一种通过双视角扩散解码实现快速、无损的大语言模型推理方法，利用两个视角的协同扩散加速推理过程，适用于高效部署场景。

开发·工具

GitHub Trending 2026-05-17 ★ ★ ★ ★ ☆

earendil-works/pi 是一个面向 AI 智能体的综合工具包，包含编码智能体命令行界面、统一 LLM API、终端 UI 与 Web UI 库、Slack 机器人以及 vLLM 推理集群支持，旨在简化 AI 应用的开发与部署。

开发·工具

Simon Willison's Weblog 2026-05-17 ★ ★ ★ ☆ ☆

datasette-llm-limits 0.1a0 是一个 Datasette 插件，用于设置 LLM 使用的消费限制，支持按用户或全局配置。