TDDev框架通过三阶段自动化测试驱动开发(TDD)流程,将自然语言需求转化为结构化验收测试、基于浏览器的交互模拟验证以及结构化修复报告,显著提升Web应用生成质量。实验表明,TDD基础设施使生成质量提升34-48个百分点,但最优协议取决于模型生成风格:整体构建型模型受益于智能体强制执行,保守扩展型模型受益于增量强制执行。用户研究证实TDDev将人工干预降至零。
核心要点
- 现有编码智能体生成的Web应用在超过70%的情况下无法满足功能需求,核心困难在于无法从源文件或终端输出评估正确性,需部署、模拟浏览器交互并将失败转化为可操作的修复信号。
- TDDev框架自动化闭环流程:1) 将高层需求转化为结构化验收测试;2) 部署应用并通过基于浏览器的交互模拟验证;3) 将浏览器观察到的失败转化为结构化修复报告。
- 首次对Web应用生成的TDD策略进行受控实证研究,比较了两种编码智能体、两种骨干模型和两个基准上的四种开发协议。
- TDD基础设施一致地将生成质量提升34-48个百分点(相对于无TDD基线)。
- 最优协议取决于模型生成风格:整体构建型模型受益于智能体强制执行,保守扩展型模型受益于增量强制执行;协议与风格不匹配会完全消除TDD收益,同时将token成本增加高达25倍。
- 用户研究证实TDDev将人工开发者干预降至零,工作负载从持续提示工程转向自主、反馈驱动的优化。
正文
摘要
编码智能体可以从自然语言描述生成Web应用,但最近的基准研究表明,超过70%的生成应用无法满足功能需求。核心困难在于Web正确性无法从源文件或终端输出评估:应用必须被部署、通过模拟浏览器交互进行测试,并且失败必须被转化为可操作的修复信号——这些步骤当前智能体无法在没有人工干预的情况下完成。
我们提出TDDev,一个通过三个阶段自动化这一闭环的框架:(1) 在编写任何代码之前将高层需求转化为结构化验收测试;(2) 部署应用并通过基于浏览器的交互模拟进行验证;(3) 将浏览器观察到的失败转化为结构化修复报告供编码智能体使用。借助TDDev,我们进行了首次针对Web应用生成的测试驱动开发(TDD)策略的受控实证研究,比较了两种编码智能体、两种骨干模型和两个基准上的四种开发协议。TDD基础设施一致地将生成质量提升34-48个百分点(相对于无TDD基线)。核心发现是最优协议取决于模型的生成风格:整体构建应用的模型受益于智能体强制执行,而保守扩展代码的模型受益于增量强制执行。协议与生成风格不匹配会完全消除TDD收益,同时将token成本增加高达25倍。用户研究证实TDDev将人工开发者干预降至零,工作负载从持续提示工程转向自主、反馈驱动的优化。
延伸摘要
编码智能体可以从自然语言描述生成Web应用,但最近的基准研究表明,超过70%的生成应用无法满足功能需求。核心困难在于Web正确性无法从源文件或终端输出评估:应用必须被部署、通过模拟浏览器交互进行测试,并且失败必须被转化为可操作的修复信号——这些步骤当前智能体无法在没有人工干预的情况下完成。我们提出TDDev,一个通过三个阶段自动化这一闭环的框架:(1) 在编写任何代码之前将高层需求转化为结构化验收测试;(2) 部署应用并通过基于浏览器的交互模拟进行验证;(3) 将浏览器观察到的失败转化为结构化修复报告供编码智能体使用。借助TDDev,我们进行了首次针对Web应用生成的测试驱动开发(TDD)策略的受控实证研究,比较了两种编码智能体、两种骨干模型和两个基准上的四种开发协议。TDD基础设施一致地将生成质量提升34-48个百分点(相对于无TDD基线)。核心发现是最优协议取决于模型的生成风格:整体构建应用的模型受益于智能体强制执行,而保守扩展代码的模型受益于增量强制执行。协议与生成风格不匹配会完全消除TDD收益,同时将token成本增加高达25倍。用户研究证实TDDev将人工开发者干预降至零,工作负载从持续提示工程转向自主、反馈驱动的优化。
关联概念
- 测试驱动开发 (TDD)
- 多智能体系统
- Web应用生成
- 基于浏览器的交互模拟
- 结构化验收测试
- 反馈驱动的优化
可操作项
可动手实践:1) 访问GitHub仓库 https://github.com/yxwan123/TDDev 获取TDDev框架代码;2) 根据模型生成风格(整体构建型或保守扩展型)选择合适的TDD协议(智能体强制执行或增量强制执行);3) 将自然语言需求输入框架,观察自动化闭环流程;4) 对比不同协议下的生成质量和token成本,验证协议与风格匹配的重要性。
原文: From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements
自动加工于 2026-05-20 11:27