MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-21 1 min read ★ ★ ★ ★ ☆

CHI-Bench:AI代理能否自动化端到端、长期、政策密集的医疗工作流程?

阅读原文 ↗

CHI-Bench是一个评估AI代理在医疗运营中自动化能力的基准,重点测试政策密度、多角色组合和多边交互三大能力。基准涵盖三个领域:提供者事先授权、支付者利用管理和护理管理。代理需在包含20个医疗应用、87个MCP工具的高保真模拟器中,依据1290+文档的医疗运营手册,通过工具调用和角色工件完成长周期任务。在30种代理配置中,最佳代理仅解决28.0%的任务,严格通过率低于20%,单会话执行所有任务时性能降至3.8%。结果表明,类似差距可能出现在其他政策密集、角色组合、不可逆的企业领域。


核心要点

  1. CHI-Bench评估AI代理在医疗运营中的三大能力:政策密度、多角色组合和多边交互。
  2. 基准涵盖三个领域:提供者事先授权、支付者利用管理和护理管理。
  3. 模拟器包含20个医疗应用和87个MCP工具,代理需依据1290+文档的医疗运营手册。
  4. 最佳代理仅解决28.0%的任务,严格通过率低于20%,单会话执行时性能降至3.8%。
  5. 结果暗示类似差距可能出现在其他政策密集、角色组合、不可逆的企业领域。

正文

原始摘要

真实医疗运营的端到端自动化强调了当前基准测试中代表性不足的三种能力:政策密度,决策必须基于大量医疗、保险和运营规则;多角色组合,单个任务要求代理扮演多个角色并进行交接;多边交互,中间工作流程步骤是多轮对话,如同行评审和患者外联。我们引入了χ-Bench,一个跨三个领域的长周期医疗工作流程基准:提供者事先授权、支付者利用管理和护理管理。每个任务将临床案例交给代理,在一个包含20个医疗应用、通过87个MCP工具暴露的高保真模拟器中,代理必须通过工具调用和编写角色工件,依据1290+文档的医疗运营手册技能,驱动任务达到终端状态。在30种代理框架/模型配置中,最佳代理仅解决28.0%的任务,没有代理在严格通过率^3上超过20%,在单会话中执行所有任务时性能降至3.8%。这些结果提出了一个假设:类似的差距很可能出现在其他政策密集、角色组合、不可逆的企业领域。

延伸摘要

真实医疗运营的端到端自动化强调了当前基准测试中代表性不足的三种能力:政策密度,决策必须基于大量医疗、保险和运营规则;多角色组合,单个任务要求代理扮演多个角色并进行交接;多边交互,中间工作流程步骤是多轮对话,如同行评审和患者外联。我们引入了χ-Bench,一个跨三个领域的长周期医疗工作流程基准:提供者事先授权、支付者利用管理和护理管理。每个任务将临床案例交给代理,在一个包含20个医疗应用、通过87个MCP工具暴露的高保真模拟器中,代理必须通过工具调用和编写角色工件,依据1290+文档的医疗运营手册技能,驱动任务达到终端状态。在30种代理框架/模型配置中,最佳代理仅解决28.0%的任务,没有代理在严格通过率^3上超过20%,在单会话中执行所有任务时性能降至3.8%。这些结果提出了一个假设:类似的差距很可能出现在其他政策密集、角色组合、不可逆的企业领域。


关联概念

  • 政策密度
  • 多角色组合
  • 多边交互
  • 长周期工作流程
  • 高保真模拟器
  • MCP工具
  • 医疗运营手册

可操作项

对于技术文章,可动手实践的内容包括:1. 访问GitHub仓库(https://github.com/actava-ai/chi-bench)获取基准代码和模拟器。2. 配置代理框架(如LangChain、AutoGPT等)并尝试在CHI-Bench上运行任务。3. 分析代理在政策密度、多角色组合和多边交互方面的失败模式,优化提示工程或工具调用策略。4. 探索将类似基准应用于其他企业领域(如金融、法律)的可能性。


原文: CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
自动加工于 2026-05-20 08:05

#AI代理#医疗运营#基准测试#自动化

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA