从可运行到可交付：基于多智能体测试驱动开发的全栈Web应用生成

TDDev框架通过三阶段自动化测试驱动开发（TDD）流程，将自然语言需求转化为结构化验收测试、基于浏览器的交互模拟验证以及结构化修复报告，显著提升Web应用生成质量。实验表明，TDD基础设施使生成质量提升34-48个百分点，但最优协议取决于模型生成风格：整体构建型模型受益于智能体强制执行，保守扩展型模型受益于增量强制执行。用户研究证实TDDev将人工干预降至零。

核心要点

现有编码智能体生成的Web应用在超过70%的情况下无法满足功能需求，核心困难在于无法从源文件或终端输出评估正确性，需部署、模拟浏览器交互并将失败转化为可操作的修复信号。
TDDev框架自动化闭环流程：1) 将高层需求转化为结构化验收测试；2) 部署应用并通过基于浏览器的交互模拟验证；3) 将浏览器观察到的失败转化为结构化修复报告。
首次对Web应用生成的TDD策略进行受控实证研究，比较了两种编码智能体、两种骨干模型和两个基准上的四种开发协议。
TDD基础设施一致地将生成质量提升34-48个百分点（相对于无TDD基线）。
最优协议取决于模型生成风格：整体构建型模型受益于智能体强制执行，保守扩展型模型受益于增量强制执行；协议与风格不匹配会完全消除TDD收益，同时将token成本增加高达25倍。
用户研究证实TDDev将人工开发者干预降至零，工作负载从持续提示工程转向自主、反馈驱动的优化。

正文

摘要

编码智能体可以从自然语言描述生成Web应用，但最近的基准研究表明，超过70%的生成应用无法满足功能需求。核心困难在于Web正确性无法从源文件或终端输出评估：应用必须被部署、通过模拟浏览器交互进行测试，并且失败必须被转化为可操作的修复信号——这些步骤当前智能体无法在没有人工干预的情况下完成。

我们提出TDDev，一个通过三个阶段自动化这一闭环的框架：(1) 在编写任何代码之前将高层需求转化为结构化验收测试；(2) 部署应用并通过基于浏览器的交互模拟进行验证；(3) 将浏览器观察到的失败转化为结构化修复报告供编码智能体使用。借助TDDev，我们进行了首次针对Web应用生成的测试驱动开发（TDD）策略的受控实证研究，比较了两种编码智能体、两种骨干模型和两个基准上的四种开发协议。TDD基础设施一致地将生成质量提升34-48个百分点（相对于无TDD基线）。核心发现是最优协议取决于模型的生成风格：整体构建应用的模型受益于智能体强制执行，而保守扩展代码的模型受益于增量强制执行。协议与生成风格不匹配会完全消除TDD收益，同时将token成本增加高达25倍。用户研究证实TDDev将人工开发者干预降至零，工作负载从持续提示工程转向自主、反馈驱动的优化。

延伸摘要

编码智能体可以从自然语言描述生成Web应用，但最近的基准研究表明，超过70%的生成应用无法满足功能需求。核心困难在于Web正确性无法从源文件或终端输出评估：应用必须被部署、通过模拟浏览器交互进行测试，并且失败必须被转化为可操作的修复信号——这些步骤当前智能体无法在没有人工干预的情况下完成。我们提出TDDev，一个通过三个阶段自动化这一闭环的框架：(1) 在编写任何代码之前将高层需求转化为结构化验收测试；(2) 部署应用并通过基于浏览器的交互模拟进行验证；(3) 将浏览器观察到的失败转化为结构化修复报告供编码智能体使用。借助TDDev，我们进行了首次针对Web应用生成的测试驱动开发（TDD）策略的受控实证研究，比较了两种编码智能体、两种骨干模型和两个基准上的四种开发协议。TDD基础设施一致地将生成质量提升34-48个百分点（相对于无TDD基线）。核心发现是最优协议取决于模型的生成风格：整体构建应用的模型受益于智能体强制执行，而保守扩展代码的模型受益于增量强制执行。协议与生成风格不匹配会完全消除TDD收益，同时将token成本增加高达25倍。用户研究证实TDDev将人工开发者干预降至零，工作负载从持续提示工程转向自主、反馈驱动的优化。

关联概念

测试驱动开发 (TDD)
多智能体系统
Web应用生成
基于浏览器的交互模拟
结构化验收测试
反馈驱动的优化

可操作项

可动手实践：1) 访问GitHub仓库 https://github.com/yxwan123/TDDev 获取TDDev框架代码；2) 根据模型生成风格（整体构建型或保守扩展型）选择合适的TDD协议（智能体强制执行或增量强制执行）；3) 将自然语言需求输入框架，观察自动化闭环流程；4) 对比不同协议下的生成质量和token成本，验证协议与风格匹配的重要性。

原文: From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements
自动加工于 2026-05-20 11:27

核心要点

正文

摘要

延伸摘要

关联概念

可操作项

更多 AI·模型 文章

谷歌推出Gemini 3.5 Flash：押注AI代理而非聊天机器人

CompactAttention：通过块联合KV选择加速分块预填充

Lance：通过多任务协同实现统一多模态建模

AstraFlow：面向数据流的智能体大语言模型强化学习系统

更多 AI·模型文章