MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Simon Willison's Weblog 2026-05-20 1 min read ★ ★ ★ ★ ☆

LLM领域过去六个月的五分钟回顾

阅读原文 ↗

本文总结了2025年11月至2026年4月期间LLM领域的关键进展,重点包括2025年11月的转折点、编码代理的成熟、OpenClaw项目的崛起以及各大模型在绘图测试中的表现。


核心要点

  1. 2025年11月是LLM发展的转折点,编码代理从‘偶尔可用’变为‘日常可用’,显著提升工作效率。
  2. 最佳模型在11月间五次易主:Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。
  3. OpenClaw(原名Warelay)在三个月内迅速崛起,成为个人AI助手的代名词,并催生了‘Claws’这一通用术语。
  4. Gemini 3.1 Pro在绘图测试中表现优异,生成包含鱼篮的鹈鹕骑自行车图像,显示模型创造力提升。
  5. Google发布Gemma 4系列模型,成为最强大的开放权重模型之一。

正文

2025年11月:转折点

2025年11月是LLM发展的关键月份,尤其是编码领域。最佳模型在三大提供商之间五次易主:Claude Sonnet 4.5(9月29日发布)→ GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。作者使用‘生成鹈鹕骑自行车的SVG’测试来区分模型能力,因为鹈鹕和自行车都难以绘制,且AI实验室不会为此训练模型。Gemini 3在测试中表现最佳,但多数从业者认为Opus 4.5在随后几个月保持领先。

编码代理的成熟

OpenAI和Anthropic在2025年大部分时间通过可验证奖励的强化学习(RLVR)提升模型代码质量,尤其是与Codex和Claude Code代理框架结合。11月,编码代理从‘偶尔可用’变为‘日常可用’,跨越了质量门槛,用户可将其作为日常工具完成实际工作,而无需花费大量时间修复错误。

假期探索与项目热潮

2025年12月至2026年1月,许多开发者利用假期探索新模型和编码代理。作者本人也经历了短暂的‘LLM精神病’状态,启动了许多雄心勃勃的项目,例如用Python实现JavaScript的‘micro-javascript’库(基于MicroQuickJS),可在浏览器中通过Pyodide和WebAssembly运行。尽管技术有趣,但这类项目实用性有限,作者后来放弃了多个类似项目。

OpenClaw的崛起

2025年11月底,一个名为‘Warelay’的仓库首次提交。经过12月和1月的多次更名,最终在2月以‘OpenClaw’之名席卷全球。OpenClaw是个人AI助手,衍生出NanoClaw、ZeroClaw等变体,统称为‘Claws’。硅谷的Mac Mini一度售罄,因为人们购买它们来运行Claws。作者将Claws比喻为《蜘蛛侠2》中Doc Ock的机械臂:由AI驱动,在抑制芯片完好时安全,否则可能失控。

2026年2月及之后

2026年2月,Gemini 3.1 Pro发布,在绘图测试中生成包含鱼篮的鹈鹕骑自行车图像。随后,Google的Jeff Dean发布了一段动画视频,展示鹈鹕骑自行车、青蛙骑前轮大后轮小的自行车、长颈鹿开小车、鸵鸟穿轮滑鞋、乌龟玩滑板、腊肠犬开加长豪华轿车等场景,表明AI实验室已注意到此类测试。

近期进展

过去一个月内,Google发布了Gemma 4系列模型,这是目前最强大的开放权重模型之一。


关联概念

  • LLM(大语言模型)
  • 编码代理(Coding Agents)
  • RLVR(可验证奖励的强化学习)
  • OpenClaw / Claws
  • Gemma 4

原文: The last six months in LLMs in five minutes
自动加工于 2026-05-20 11:31

#LLM#回顾#编码代理#OpenClaw

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一多模态模型,通过协作多任务训练实现图像和视频的理解、生成与编辑,采用双流混合专家架构和共享交错多模态序列,探索不依赖规模扩展的实用范式。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练和弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA