本文总结了2025年11月至2026年4月期间LLM领域的关键进展,重点包括2025年11月的转折点、编码代理的成熟、OpenClaw项目的崛起以及各大模型在绘图测试中的表现。
核心要点
- 2025年11月是LLM发展的转折点,编码代理从‘偶尔可用’变为‘日常可用’,显著提升工作效率。
- 最佳模型在11月间五次易主:Claude Sonnet 4.5 → GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。
- OpenClaw(原名Warelay)在三个月内迅速崛起,成为个人AI助手的代名词,并催生了‘Claws’这一通用术语。
- Gemini 3.1 Pro在绘图测试中表现优异,生成包含鱼篮的鹈鹕骑自行车图像,显示模型创造力提升。
- Google发布Gemma 4系列模型,成为最强大的开放权重模型之一。
正文
2025年11月:转折点
2025年11月是LLM发展的关键月份,尤其是编码领域。最佳模型在三大提供商之间五次易主:Claude Sonnet 4.5(9月29日发布)→ GPT-5.1 → Gemini 3 → GPT-5.1 Codex Max → Claude Opus 4.5。作者使用‘生成鹈鹕骑自行车的SVG’测试来区分模型能力,因为鹈鹕和自行车都难以绘制,且AI实验室不会为此训练模型。Gemini 3在测试中表现最佳,但多数从业者认为Opus 4.5在随后几个月保持领先。
编码代理的成熟
OpenAI和Anthropic在2025年大部分时间通过可验证奖励的强化学习(RLVR)提升模型代码质量,尤其是与Codex和Claude Code代理框架结合。11月,编码代理从‘偶尔可用’变为‘日常可用’,跨越了质量门槛,用户可将其作为日常工具完成实际工作,而无需花费大量时间修复错误。
假期探索与项目热潮
2025年12月至2026年1月,许多开发者利用假期探索新模型和编码代理。作者本人也经历了短暂的‘LLM精神病’状态,启动了许多雄心勃勃的项目,例如用Python实现JavaScript的‘micro-javascript’库(基于MicroQuickJS),可在浏览器中通过Pyodide和WebAssembly运行。尽管技术有趣,但这类项目实用性有限,作者后来放弃了多个类似项目。
OpenClaw的崛起
2025年11月底,一个名为‘Warelay’的仓库首次提交。经过12月和1月的多次更名,最终在2月以‘OpenClaw’之名席卷全球。OpenClaw是个人AI助手,衍生出NanoClaw、ZeroClaw等变体,统称为‘Claws’。硅谷的Mac Mini一度售罄,因为人们购买它们来运行Claws。作者将Claws比喻为《蜘蛛侠2》中Doc Ock的机械臂:由AI驱动,在抑制芯片完好时安全,否则可能失控。
2026年2月及之后
2026年2月,Gemini 3.1 Pro发布,在绘图测试中生成包含鱼篮的鹈鹕骑自行车图像。随后,Google的Jeff Dean发布了一段动画视频,展示鹈鹕骑自行车、青蛙骑前轮大后轮小的自行车、长颈鹿开小车、鸵鸟穿轮滑鞋、乌龟玩滑板、腊肠犬开加长豪华轿车等场景,表明AI实验室已注意到此类测试。
近期进展
过去一个月内,Google发布了Gemma 4系列模型,这是目前最强大的开放权重模型之一。
关联概念
- LLM(大语言模型)
- 编码代理(Coding Agents)
- RLVR(可验证奖励的强化学习)
- OpenClaw / Claws
- Gemma 4
原文: The last six months in LLMs in five minutes
自动加工于 2026-05-20 11:31