摘要: 问题回答(QA)是一个活跃研究的主题,是需要在实现人工通用智能(AGI)之前解决的核心自然语言处理(NLP)任务。然而,在特定领域和语言中缺乏QA数据集阻碍了能够在各种领域和语言中进行泛化的强大人工智能模型的发展。为此,我们介绍了MedQARo,这是罗马尼亚语中第一个大规模医学QA基准,并伴随着对最先进(SOTA)大语言模型(LLMs)的全面评估。我们构建了一个高质量和大规模的数据集,包括来自两家医疗中心的105,880个关于癌症患者的QA对。这些问题涉及1,242位患者的医疗病例摘要,需要关键字提取或推理才能正确回答。MedQARo是由七位专业从事肿瘤学或放射治疗的医生进行的耗时的手工注释过程的结果,他们总共花费约3,000个工作小时来生成QA对。我们的基准包含领域内和领域间(跨中心和跨癌症)的测试集合,从而能够精确评估泛化能力。我们在MedQARo上尝试了来自不同模型家族的四个开源LLM。每个模型分别用于基于零射提示和基于监督微调的两种场景。我们还评估了通过API公开的两个最先进的LLM,即GPT-5.2和Gemini 3 Flash。我们的结果显示,经过微调的模型明显优于零射模型,清楚地表明预训练模型在MedQARo上无法泛化。我们的研究结果表明,领域特定和语言特定的微调对于罗马尼亚语中可靠的临床QA至关重要。我们在https://github.com/ana-rogoz/MedQARo上公开发布了我们的数据集和代码。 更新时间: 2025-12-31 10:51:21 领域: cs.CL,cs.AI,cs.LG
|