MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-23 1 min read ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

阅读原文 ↗

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

Video2GUI:合成大规模交互轨迹用于通用GUI智能体预训练

针对GUI智能体训练数据稀缺且依赖昂贵人工标注的问题,本文提出**Video2GUI**全自动框架,从无标注互联网视频中提取结构化交互轨迹。通过粗到细的过滤策略,从**5亿**视频元数据中构建出**WildGUI**数据集,包含**1200万**条交互轨迹,覆盖**1500+**应用和网站。基于Wi…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA