找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 20|回复: 0

搜索和思考过程中的细化:促进知识细化以提高检索增强推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:51:28 | 显示全部楼层 |阅读模式
摘要: 大型语言模型展示了令人印象深刻的推理能力,但受到其知识储备的固有限制。检索增强推理通过允许LLMs查询外部资源来缓解这一限制,但现有方法经常检索到无关或嘈杂信息,从而阻碍准确推理。在本文中,我们提出了AutoRefine,这是一个采用新的“搜索和精炼-思考期间”范式的强化学习后训练框架。AutoRefine在连续搜索调用之间引入显式知识精炼步骤,使模型能够在生成答案之前迭代地过滤、提炼和组织证据。此外,我们利用群体相对策略优化,将定制的检索特定奖励与答案正确性奖励结合起来。在单跳和多跳QA基准测试上的实验表明,AutoRefine在复杂的多跳推理场景中明显优于现有方法。详细分析显示,AutoRefine频繁地发出高质量的搜索,并有效地综合证据。
更新时间: 2025-09-19 12:21:03
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.075813 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表