摘要: 大型语言模型(LLMs)的快速发展刺激了人们对多智能体协作解决复杂医学任务的兴趣。然而,多智能体协作方法的实际优势仍未被充分理解。现有评估通常缺乏泛化性,未能涵盖反映真实临床实践的多样任务,并经常忽略对单一LLM和传统方法的严格比较。为弥补这一关键差距,我们引入了MedAgentBoard,这是一个全面的基准,用于系统评估多智能体协作、单一LLM和传统方法。MedAgentBoard涵盖了四个不同的医学任务类别:(1)医学(视觉)问题回答,(2)摘要生成,(3)结构化电子健康记录(EHR)预测建模,以及(4)临床工作流自动化,涉及文本、医学图像和结构化EHR数据。我们的广泛实验揭示了一个微妙的格局:虽然多智能体协作在特定情景下表现出好处,比如增强临床工作流自动化的任务完成度,但在文本医学问答等任务中并不总是优于先进的单一LLMs,甚至在医学VQA和基于EHR的预测等任务中通常表现更好的专业传统方法。MedAgentBoard提供了一个重要的资源和可操作的见解,强调在医学领域选择和开发AI解决方案时需要基于任务的、以证据为基础的方法。它强调,多智能体协作的固有复杂性和开销必须仔细权衡,以换取实质性的性能提升。所有代码、数据集、详细提示和实验结果均在https://medagentboard.netlify.app/ 开源。 更新时间: 2025-10-30 13:27:07 领域: cs.AI,cs.CL,cs.LG,cs.MA
|