|
摘要: 目标:氟嘧啶类药物被广泛用于结直肠癌和乳腺癌的治疗,但会引起手足综合征和心毒性等毒性反应。由于毒性记录通常嵌入在临床笔记中,我们旨在开发和评估自然语言处理(NLP)方法来提取治疗和毒性信息。 材料和方法:我们构建了一个由204,165名成年肿瘤患者的236份临床笔记组成的黄金标准数据集。领域专家标注了与治疗方案和毒性相关的类别。我们开发了基于规则的、基于机器学习的(随机森林、支持向量机[SVM]、逻辑回归[LR])、基于深度学习的(BERT、ClinicalBERT)和基于大型语言模型(LLM)的NLP方法(零-shot和误差分析提示)。模型采用了80:20的训练-测试分裂。 结果:存在足够的数据来训练和评估5个已注释的类别。误差分析提示实现了治疗和毒性提取的最佳精度、召回率和F1分数(F1=1.000),而零-shot提示达到了治疗的F1=1.000和毒性的F1=0.876。LR和SVM在毒性方面排名第二(F1=0.937)。深度学习表现不佳,BERT(治疗F1=0.873;毒性F1=0.839)和ClinicalBERT(治疗F1=0.873;毒性F1=0.886)。基于规则的方法作为我们的基准,在治疗方面的F1分数为0.857,在毒性方面为0.858。 讨论:LLM方法表现优于其他方法,其次是机器学习方法。机器和深度学习方法受限于小训练数据,并显示出有限的泛化能力,特别是对于罕见类别。 结论:LLM基于NLP最有效地从临床笔记中提取氟嘧啶类药物的治疗和毒性信息,并具有强大的潜力支持肿瘤学研究和药物监测。 更新时间: 2025-10-23 16:44:39 领域: cs.CL,cs.AI
|