大型语言模型能否从现实世界的文本中推断因果关系？

于红博 · 发表于 2025-9-22 19:38:17

摘要: 理解和推断文本中的因果关系是人类认知的核心方面，对于推动大型语言模型（LLMs）朝着人工通用智能发展至关重要。现有的评估LLM因果推理的工作主要集中在合成生成的文本上，这些文本涉及明确提到的直接因果关系。这无法反映现实任务的复杂性。在本文中，我们调查LLMs是否能够从现实世界的文本中推断因果关系。我们从现实世界的学术文献中汲取了一个基准，该基准包括在长度、关系复杂性（不同明确程度、节点数量和因果关系）、领域和子领域方面具有多样性的文本。据我们所知，我们的基准是这项任务的首个现实世界数据集。我们在该数据集上的实验表明，LLMs在从现实世界文本中推断因果关系时面临着重大挑战，表现最佳的模型仅实现了平均F1分数为0.477。通过对现实文本各方面（混淆程度、图的大小、文本长度、领域）的系统分析，我们的基准为进一步研究推动LLM因果推理提供了有针对性的见解。

更新时间: 2025-09-19 15:55:46

领域: cs.AI,cs.CL,cs.LG

下载: http://arxiv.org/abs/2505.18931v2

		自动登录	找回密码
密码			立即注册

大型语言模型能否从现实世界的文本中推断因果关系？

浏览过的版块