找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

InfoFlow:通过奖励密度优化强化搜索代理

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:51:09 | 显示全部楼层 |阅读模式
摘要: 具有可验证奖励的强化学习(RLVR)是增强代理深度搜索的一种有前途的方法。然而,在深度搜索场景中,其应用经常受到低奖励密度的阻碍,代理费尽探索成本以获取不经常且经常为空的最终奖励。本文将这一挑战形式化为奖励密度优化问题,旨在提高每单位探索成本获得的奖励。本文介绍了InfoFlow,一个系统性框架,从三个方面解决了这个问题。1)子问题分解:将长期任务分解为分配过程奖励,从而提供更密集的学习信号。2)失败引导提示:将纠正指导注入到停滞轨迹中,增加成功结果的概率。3)双代理优化:采用双代理架构来卸载深度探索的认知负担。一个优化代理合成了搜索历史,有效地压缩了研究人员的感知轨迹,从而降低了探索成本并提高了整体奖励密度。我们在多个代理搜索基准测试上评估了InfoFlow,在这些测试中,它明显优于强基线,使轻量级LLMs能够实现与高级专有LLMs相当的性能。
更新时间: 2025-10-30 15:03:21
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 21:45 , Processed in 0.092252 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表