大型语言模型中的规范推理：逻辑和模态透视下的比较基准

于红博 · 发表于 2025-11-2 18:48:48

摘要: 规范推理是一种涉及规范或义务模态，如义务和许可的推理类型。尽管大型语言模型（LLMs）在各种推理任务中展现出卓越的性能，但它们处理规范推理的能力仍未被充分探索。在本文中，我们从逻辑和模态的角度系统评估LLMs在规范领域的推理能力。具体来说，为了评估LLMs如何处理规范模态，我们比较了它们处理规范模态和处理认识模态的推理能力，这两者具有共同的形式结构。为此，我们引入了一个新的数据集，涵盖了规范和认识领域的各种形式推理模式，同时还纳入了影响人类推理的非形式认知因素。我们的结果表明，虽然LLMs通常遵循有效的推理模式，但它们在特定类型的规范推理中存在明显的不一致性，并展示了类似于心理学研究中观察到的人类推理的认知偏见。这些发现突显了在LLMs的规范推理中实现逻辑一致性的挑战，并为提高它们的可靠性提供了见解。所有数据和代码均在https://github.com/kmineshima/NeuBAROCO 上公开发布。

更新时间: 2025-10-30 15:35:13

领域: cs.AI,cs.CL

下载: http://arxiv.org/abs/2510.26606v1

		自动登录	找回密码
密码			立即注册