MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hugging Face Daily Papers 2026-05-20 1 min read ★ ★ ★ ★ ☆

CHI-Bench:AI代理能否自动化端到端、长周期、政策密集的医疗工作流程?

阅读原文 ↗

CHI-Bench是一个评估AI代理在医疗运营中自动化能力的基准,重点测试政策密度、多角色组合和多边交互三大能力。在30种代理配置下,最佳代理仅解决28.0%的任务,严格通过率低于20%,单会话执行性能降至3.8%,揭示了当前AI在政策密集、角色组合、不可逆的企业领域中的显著性能差距。


核心要点

  1. CHI-Bench基准测试覆盖三个医疗领域:提供者事先授权、支付者利用管理和护理管理。
  2. 基准测试强调三大能力:政策密度(基于1290+文档的规则)、多角色组合(单个任务需代理扮演多个角色并交接)、多边交互(多轮对话如同行评审和患者外联)。
  3. 使用高保真模拟器,包含20个医疗应用和87个MCP工具,代理需通过工具调用和角色工件完成长周期任务。
  4. 最佳代理(30种配置中)仅解决28.0%的任务,严格通过率(pass^3)低于20%,单会话执行性能降至3.8%。
  5. 结果暗示在其他政策密集、角色组合、不可逆的企业领域可能存在类似性能差距。

正文

原始摘要

真实医疗运营的端到端自动化强调了当前基准测试中代表性不足的三种能力:政策密度——决策必须基于大量医疗、保险和运营规则库;多角色组合——单个任务要求代理扮演多个角色并进行交接;多边交互——中间工作流程步骤是多轮对话,如同行评审和患者外联。我们引入了χ-Bench,一个跨三个领域的长周期医疗工作流程基准测试:提供者事先授权、支付者利用管理和护理管理。每个任务将临床案例交给代理,在一个高保真模拟器中运行,该模拟器包含20个医疗应用,通过87个MCP工具暴露,代理必须通过工具调用和编写角色工件驱动任务达到终端状态,并遵循1290+文档的管理式医疗运营手册技能。在30种代理框架/模型配置中,最佳代理仅解决28.0%的任务,没有代理在严格pass^3上超过20%,而在单会话中执行所有任务时性能降至3.8%。这些结果提出了一个假设:类似的差距很可能出现在其他政策密集、角色组合、不可逆的企业领域。

延伸摘要

真实医疗运营的端到端自动化强调了当前基准测试中代表性不足的三种能力:政策密度——决策必须基于大量医疗、保险和运营规则库;多角色组合——单个任务要求代理扮演多个角色并进行交接;多边交互——中间工作流程步骤是多轮对话,如同行评审和患者外联。我们引入了χ-Bench,一个跨三个领域的长周期医疗工作流程基准测试:提供者事先授权、支付者利用管理和护理管理。每个任务将临床案例交给代理,在一个高保真模拟器中运行,该模拟器包含20个医疗应用,通过87个MCP工具暴露,代理必须通过工具调用和编写角色工件驱动任务达到终端状态,并遵循1290+文档的管理式医疗运营手册技能。在30种代理框架/模型配置中,最佳代理仅解决28.0%的任务,没有代理在严格pass^3上超过20%,而在单会话中执行所有任务时性能降至3.8%。这些结果提出了一个假设:类似的差距很可能出现在其他政策密集、角色组合、不可逆的企业领域。


关联概念

  • 政策密度
  • 多角色组合
  • 多边交互
  • 长周期工作流程
  • MCP工具
  • 管理式医疗运营手册

可操作项

对于技术文章,可动手实践的内容包括:1. 访问GitHub仓库(https://github.com/actava-ai/chi-bench)获取基准测试代码和模拟器。2. 使用提供的87个MCP工具和1290+文档手册,尝试配置和运行代理(如基于LLM的代理)在三个医疗领域(事先授权、利用管理、护理管理)上执行任务。3. 评估代理性能,特别是关注政策密度、多角色组合和多边交互的挑战,并尝试优化代理框架(如改进角色切换或对话管理)。


原文: CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
自动加工于 2026-05-20 11:26

#AI代理#医疗工作流#基准测试#性能评估

更多 AI·模型 文章

精选
AI·模型 TechCrunch 2026-05-20 ★ ★ ★ ★ ☆

谷歌推出Gemini 3.5 Flash:押注AI代理而非聊天机器人

谷歌在I/O大会上发布Gemini 3.5 Flash,主打自主AI代理能力,在编码、代理任务和多模态推理上超越前代旗舰模型,速度提升4倍。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

CompactAttention:通过块联合KV选择加速分块预填充

CompactAttention是一种针对长上下文大语言模型分块预填充阶段的高效注意力机制,通过块联合KV选择将二维块稀疏掩码转换为GQA感知的每分组KV块表,在分页执行约束下实现加速。

阅读全文 →
↗
精选
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

Lance:通过多任务协同实现统一多模态建模

Lance 是一个轻量级原生统一模型,通过协作多任务训练实现图像和视频的多模态理解、生成与编辑,不依赖模型规模扩展或文本-图像主导设计。其核心采用双流混合专家架构,在共享交错多模态序列上训练,实现联合上下文学习。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-20 ★ ★ ★ ★ ☆

AstraFlow:面向数据流的智能体大语言模型强化学习系统

AstraFlow 是一种面向数据流的强化学习系统,专为智能体大语言模型设计,通过解耦部署、数据流和训练组件,支持多策略协作训练与弹性扩展。

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA