LLM领域过去六个月的五分钟回顾

本文总结了2025年11月至2026年4月期间LLM领域的关键进展，重点包括2025年11月的转折点、编码代理的成熟、OpenClaw项目的崛起以及各大模型在绘图测试中的表现。

核心要点

2025年11月是LLM发展的转折点，编码代理从‘偶尔可用’变为‘日常可用’，显著提升工作效率。
最佳模型在11月间五次易主：Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。
OpenClaw（原名Warelay）在三个月内迅速崛起，成为个人AI助手的代名词，并催生了‘Claws’这一通用术语。
Gemini 3.1 Pro在绘图测试中表现优异，生成包含鱼篮的鹈鹕骑自行车图像，显示模型创造力提升。
Google发布Gemma 4系列模型，成为最强大的开放权重模型之一。

正文

2025年11月：转折点

2025年11月是LLM发展的关键月份，尤其是编码领域。最佳模型在三大提供商之间五次易主：Claude Sonnet 4.5（9月29日发布）→ GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。作者使用‘生成鹈鹕骑自行车的SVG’测试来区分模型能力，因为鹈鹕和自行车都难以绘制，且AI实验室不会为此训练模型。Gemini 3在测试中表现最佳，但多数从业者认为Opus 4.5在随后几个月保持领先。

编码代理的成熟

OpenAI和Anthropic在2025年大部分时间通过可验证奖励的强化学习（RLVR）提升模型代码质量，尤其是与Codex和Claude Code代理框架结合。11月，编码代理从‘偶尔可用’变为‘日常可用’，跨越了质量门槛，用户可将其作为日常工具完成实际工作，而无需花费大量时间修复错误。

假期探索与项目热潮

2025年12月至2026年1月，许多开发者利用假期探索新模型和编码代理。作者本人也经历了短暂的‘LLM精神病’状态，启动了许多雄心勃勃的项目，例如用Python实现JavaScript的‘micro-javascript’库（基于MicroQuickJS），可在浏览器中通过Pyodide和WebAssembly运行。尽管技术有趣，但这类项目实用性有限，作者后来放弃了多个类似项目。

OpenClaw的崛起

2025年11月底，一个名为‘Warelay’的仓库首次提交。经过12月和1月的多次更名，最终在2月以‘OpenClaw’之名席卷全球。OpenClaw是个人AI助手，衍生出NanoClaw、ZeroClaw等变体，统称为‘Claws’。硅谷的Mac Mini一度售罄，因为人们购买它们来运行Claws。作者将Claws比喻为《蜘蛛侠2》中Doc Ock的机械臂：由AI驱动，在抑制芯片完好时安全，否则可能失控。

2026年2月及之后

2026年2月，Gemini 3.1 Pro发布，在绘图测试中生成包含鱼篮的鹈鹕骑自行车图像。随后，Google的Jeff Dean发布了一段动画视频，展示鹈鹕骑自行车、青蛙骑前轮大后轮小的自行车、长颈鹿开小车、鸵鸟穿轮滑鞋、乌龟玩滑板、腊肠犬开加长豪华轿车等场景，表明AI实验室已注意到此类测试。

近期进展

过去一个月内，Google发布了Gemma 4系列模型，这是目前最强大的开放权重模型之一。

关联概念

LLM（大语言模型）
编码代理（Coding Agents）
RLVR（可验证奖励的强化学习）
OpenClaw / Claws
Gemma 4

原文: The last six months in LLMs in five minutes
自动加工于 2026-05-20 11:31

核心要点

正文

2025年11月：转折点

编码代理的成熟

假期探索与项目热潮

OpenClaw的崛起

2026年2月及之后

近期进展

关联概念

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章