OpenComputer：为计算机使用智能体打造可验证的软件世界

OpenComputer 是一个基于验证器的框架，用于为计算机使用智能体构建可验证的软件环境。它集成了四个核心组件：应用特定的状态验证器、自我进化的验证层、任务生成流水线和评估工具。目前覆盖33个桌面应用和1000个任务。实验表明，其硬编码验证器比LLM作为评判者的评估更接近人类判断，前沿智能体在端到端完成上仍存在困难，开源模型表现显著下降。

核心要点

OpenComputer 框架包含四个组件：应用特定状态验证器、自我进化验证层、任务生成流水线和评估工具。
覆盖33个桌面应用和1000个最终任务，涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。
硬编码验证器在细粒度应用状态判断上比LLM作为评判者的评估更接近人类判断。
前沿智能体在端到端任务完成上表现挣扎，尽管有部分进展。
开源模型在OSWorld-Verified分数上出现显著下降，暴露了鲁棒计算机自动化的持续差距。

正文

我们提出了OpenComputer，一个基于验证器的框架，用于为计算机使用智能体构建可验证的软件世界。OpenComputer集成了四个组件：(1) 应用特定的状态验证器，在真实应用上暴露结构化检查端点；(2) 自我进化的验证层，利用执行反馈提高验证器可靠性；(3) 任务生成流水线，合成真实且机器可检查的桌面任务；(4) 评估工具，记录完整轨迹并计算可审计的部分信用奖励。目前，OpenComputer覆盖33个桌面应用和1000个最终任务，涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。实验表明，OpenComputer的硬编码验证器比LLM作为评判者的评估更接近人类判断，尤其是在成功依赖于细粒度应用状态时。前沿智能体在端到端完成上表现挣扎，尽管有部分进展，而开源模型在OSWorld-Verified分数上出现显著下降，暴露了鲁棒计算机自动化的持续差距。

关联概念

计算机使用智能体
状态验证器
自我进化验证层
任务生成流水线
评估工具
部分信用奖励
LLM作为评判者

可操作项

访问GitHub仓库（https://github.com/echo0715/OpenComputer）获取代码和文档，尝试在33个桌面应用上运行任务生成流水线和评估工具，对比硬编码验证器与LLM作为评判者的评估结果。

原文: OpenComputer: Verifiable Software Worlds for Computer-Use Agents
自动加工于 2026-05-21 01:55

核心要点

正文

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章