OpenComputer 是一个基于验证器的框架,用于为计算机使用智能体构建可验证的软件环境。它集成了四个核心组件:应用特定的状态验证器、自我进化的验证层、任务生成流水线和评估工具。目前覆盖33个桌面应用和1000个任务。实验表明,其硬编码验证器比LLM作为评判者的评估更接近人类判断,前沿智能体在端到端完成上仍存在困难,开源模型表现显著下降。
核心要点
- OpenComputer 框架包含四个组件:应用特定状态验证器、自我进化验证层、任务生成流水线和评估工具。
- 覆盖33个桌面应用和1000个最终任务,涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。
- 硬编码验证器在细粒度应用状态判断上比LLM作为评判者的评估更接近人类判断。
- 前沿智能体在端到端任务完成上表现挣扎,尽管有部分进展。
- 开源模型在OSWorld-Verified分数上出现显著下降,暴露了鲁棒计算机自动化的持续差距。
正文
我们提出了OpenComputer,一个基于验证器的框架,用于为计算机使用智能体构建可验证的软件世界。OpenComputer集成了四个组件:(1) 应用特定的状态验证器,在真实应用上暴露结构化检查端点;(2) 自我进化的验证层,利用执行反馈提高验证器可靠性;(3) 任务生成流水线,合成真实且机器可检查的桌面任务;(4) 评估工具,记录完整轨迹并计算可审计的部分信用奖励。目前,OpenComputer覆盖33个桌面应用和1000个最终任务,涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。实验表明,OpenComputer的硬编码验证器比LLM作为评判者的评估更接近人类判断,尤其是在成功依赖于细粒度应用状态时。前沿智能体在端到端完成上表现挣扎,尽管有部分进展,而开源模型在OSWorld-Verified分数上出现显著下降,暴露了鲁棒计算机自动化的持续差距。
关联概念
- 计算机使用智能体
- 状态验证器
- 自我进化验证层
- 任务生成流水线
- 评估工具
- 部分信用奖励
- LLM作为评判者
可操作项
访问GitHub仓库(https://github.com/echo0715/OpenComputer)获取代码和文档,尝试在33个桌面应用上运行任务生成流水线和评估工具,对比硬编码验证器与LLM作为评判者的评估结果。
原文: OpenComputer: Verifiable Software Worlds for Computer-Use Agents
自动加工于 2026-05-21 01:55