MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

OpenComputer:为计算机使用智能体打造可验证的软件世界

阅读原文 ↗

OpenComputer 是一个基于验证器的框架,用于为计算机使用智能体构建可验证的软件环境。它集成了四个核心组件:应用特定的状态验证器、自我进化的验证层、任务生成流水线和评估工具。目前覆盖33个桌面应用和1000个任务。实验表明,其硬编码验证器比LLM作为评判者的评估更接近人类判断,前沿智能体在端到端完成上仍存在困难,开源模型表现显著下降。


核心要点

  1. OpenComputer 框架包含四个组件:应用特定状态验证器、自我进化验证层、任务生成流水线和评估工具。
  2. 覆盖33个桌面应用和1000个最终任务,涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。
  3. 硬编码验证器在细粒度应用状态判断上比LLM作为评判者的评估更接近人类判断。
  4. 前沿智能体在端到端任务完成上表现挣扎,尽管有部分进展。
  5. 开源模型在OSWorld-Verified分数上出现显著下降,暴露了鲁棒计算机自动化的持续差距。

正文

我们提出了OpenComputer,一个基于验证器的框架,用于为计算机使用智能体构建可验证的软件世界。OpenComputer集成了四个组件:(1) 应用特定的状态验证器,在真实应用上暴露结构化检查端点;(2) 自我进化的验证层,利用执行反馈提高验证器可靠性;(3) 任务生成流水线,合成真实且机器可检查的桌面任务;(4) 评估工具,记录完整轨迹并计算可审计的部分信用奖励。目前,OpenComputer覆盖33个桌面应用和1000个最终任务,涵盖浏览器、办公工具、创意软件、开发环境、文件管理器和通信应用。实验表明,OpenComputer的硬编码验证器比LLM作为评判者的评估更接近人类判断,尤其是在成功依赖于细粒度应用状态时。前沿智能体在端到端完成上表现挣扎,尽管有部分进展,而开源模型在OSWorld-Verified分数上出现显著下降,暴露了鲁棒计算机自动化的持续差距。


关联概念

  • 计算机使用智能体
  • 状态验证器
  • 自我进化验证层
  • 任务生成流水线
  • 评估工具
  • 部分信用奖励
  • LLM作为评判者

可操作项

访问GitHub仓库(https://github.com/echo0715/OpenComputer)获取代码和文档,尝试在33个桌面应用上运行任务生成流水线和评估工具,对比硬编码验证器与LLM作为评判者的评估结果。


原文: OpenComputer: Verifiable Software Worlds for Computer-Use Agents
自动加工于 2026-05-21 01:55

#智能体#验证器#桌面应用

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA