|
摘要: 基于大型语言模型(LLMs)的现代问答(QA)和推理方法通常使用提示技术,如Chain-of-Thought(CoT),假设生成的结果将更细致地探索问题空间和范围。然而,这种方法在生成符合模型产生的中间推理链的输出时存在困难。在另一端,神经符号方法如Faithful CoT(F-CoT)建议将LLMs与外部符号求解器结合起来。虽然这种方法具有很高的忠实度,但通常需要经过代码生成训练的模型,并且在任务模糊或难以严格形式化的情况下存在困难。我们引入了Faithful Logic-Aided Reasoning and Exploration(FLARE),一种新颖的可解释方法,通过任务分解来遍历问题空间。我们使用LLM规划解决方案,使用逻辑编程代码将查询软形式化为事实和谓词,并使用定义空间上的详尽多跳搜索来模拟该代码执行。我们的方法允许我们计算推理过程相对于生成的代码的忠实度,并分析多跳搜索步骤,而无需依赖外部求解器。我们的方法在9个不同的推理基准测试中有7个取得了最先进的结果。我们还展示模型的忠实度与整体性能呈正相关,并进一步证明FLARE可以准确找出在多跳搜索期间导致正确答案的决定性因素。 更新时间: 2025-09-19 13:12:33 领域: cs.AI,cs.CL,cs.LG,cs.LO
|