计划然后检索：强化学习引导的知识图上的复杂推理

于红博 · 发表于前天 00:30

摘要: 知识图谱问答旨在通过对结构化知识图谱进行推理来回答自然语言问题。尽管大型语言模型通过其强大的推理能力推动了知识图谱问答的发展，但现有方法仍然难以充分利用知识图谱中编码的丰富知识和LLM的推理能力，特别是在复杂情况下。它们通常假定知识图谱具有完整的覆盖范围，并缺乏判断何时需要外部信息的机制，其推理仍然局限于局部，无法保持连贯的多步规划，导致即使存在相关知识也会出现推理失败。我们提出了Graph-RFT，这是一个新颖的两阶段强化微调知识图谱问答框架，采用“计划-KG搜索和Web搜索-思考”范式，使LLM能够在不完整知识条件下执行自主规划和自适应检索调度，跨知识图谱和网络源。Graph-RFT引入了一种连续思考微调方法，通过定制的计划-检索数据集激活结构化推理并解决GRPO冷启动问题。然后，它引入了一种新颖的计划-检索引导强化学习过程，将显式规划和检索动作与多重奖励设计相结合，实现了覆盖感知的检索调度。它采用了一个受笛卡尔启发的规划模块，将复杂问题分解为有序子问题，并利用逻辑表达式指导工具调用，以实现全局一致的多步推理。这种推理检索过程通过结合结果和检索特定信号的多重奖励进行优化，使模型能够学习何时以及如何有效地结合知识图谱和网络检索。

更新时间: 2025-10-23 16:04:13

领域: cs.AI

下载: http://arxiv.org/abs/2510.20691v1

		自动登录	找回密码
密码			立即注册

计划然后检索：强化学习引导的知识图上的复杂推理

浏览过的版块