MedAgentBoard：用传统方法为多样化医疗任务进行多智能体协作基准测试

于红博 · 发表于 2025-11-2 19:05:12

摘要: 大型语言模型（LLMs）的快速发展刺激了人们对多智能体协作解决复杂医学任务的兴趣。然而，多智能体协作方法的实际优势仍未被充分理解。现有评估通常缺乏泛化性，未能涵盖反映真实临床实践的多样任务，并经常忽略对单一LLM和传统方法的严格比较。为弥补这一关键差距，我们引入了MedAgentBoard，这是一个全面的基准，用于系统评估多智能体协作、单一LLM和传统方法。MedAgentBoard涵盖了四个不同的医学任务类别：（1）医学（视觉）问题回答，（2）摘要生成，（3）结构化电子健康记录（EHR）预测建模，以及（4）临床工作流自动化，涉及文本、医学图像和结构化EHR数据。我们的广泛实验揭示了一个微妙的格局：虽然多智能体协作在特定情景下表现出好处，比如增强临床工作流自动化的任务完成度，但在文本医学问答等任务中并不总是优于先进的单一LLMs，甚至在医学VQA和基于EHR的预测等任务中通常表现更好的专业传统方法。MedAgentBoard提供了一个重要的资源和可操作的见解，强调在医学领域选择和开发AI解决方案时需要基于任务的、以证据为基础的方法。它强调，多智能体协作的固有复杂性和开销必须仔细权衡，以换取实质性的性能提升。所有代码、数据集、详细提示和实验结果均在https://medagentboard.netlify.app/ 开源。

更新时间: 2025-10-30 13:27:07

领域: cs.AI,cs.CL,cs.LG,cs.MA

下载: http://arxiv.org/abs/2505.12371v2

		自动登录	找回密码
密码			立即注册