AI·模型

Hugging Face Daily Papers 2026-05-23 1 min read ★ ★ ☆ ☆ ☆

π-Bench：评估主动个人助理代理在长视界工作流中的表现

阅读原文 ↗

个人助理代理（如OpenClaw）的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而，现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此，本文引入了π-Bench，一个包含100个多轮任务和5个特定领域用户角色的基准测试，用于评估主动式个人助理代理。