|
摘要: 大型语言模型(LLMs)通过利用大规模的预训练和精心调整的微调数据,在多个领域展现出了卓越的能力。然而,在诸如医疗保健等数据敏感领域,缺乏高质量的领域特定训练语料库阻碍了LLMs为专业应用的适应。同时,领域专家已经将领域智慧提炼成本体规则,这些规则形式化了概念之间的关系,确保知识管理存储库的完整性。将LLMs视为人类知识的隐性存储库,我们提出了Evontree,一个新颖的框架,利用一小组高质量的本体规则系统地在LLMs内提取、验证和增强领域知识,而无需大量的外部数据集。具体而言,Evontree从原始模型中提取领域本体,利用两个核心本体规则检测不一致性,并通过自我提炼微调强化精细化的知识。在使用Llama3-8B-Instruct和Med42-v2进行广泛实验的医疗问答基准测试中,结果表明相对于未修改的模型和主要监督基线,Evontree持续表现出色,准确率提高了高达3.7%。这些结果证实了我们的方法在低资源领域适应LLMs方面的有效性、效率和鲁棒性。 更新时间: 2025-10-30 16:53:45 领域: cs.CL,cs.AI
|