找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 28|回复: 0

图增强的LLM代理训练中的策略优化

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:04:26 | 显示全部楼层 |阅读模式
摘要: 基于群体的强化学习(RL)在复杂的推理和数学任务上表现出令人印象深刻的结果。然而,当应用于训练多轮、交互式LLM代理时,这些方法通常会遭受结构盲点的困扰-即无法利用环境的基础连通性。这体现在三个关键挑战中:(1)低效的、无导向的探索,(2)由于忽视关键状态而导致的不精确的信用分配,以及(3)由静态奖励折扣引起的目光短浅的规划。我们通过图增强策略优化(GEPO)来解决这些问题,它从代理经验动态构建状态转移图,并利用图论中心性提供三种协同学习信号:(1)引导探索向高影响状态的结构内在奖励,(2)用于拓扑感知信用分配的图增强优势函数,以及(3)针对每个状态的战略价值调整的动态折扣因子。在ALFWorld、WebShop和专有的Workbench基准测试中,GEPO展现出强大的性能,相对成功率分别比竞争基准提高了+4.1%、+5.3%和+10.9%。这些结果突显了明确地建模环境结构是推进LLM代理训练的一种稳健、可推广的策略。
更新时间: 2025-10-30 08:53:41
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:47 , Processed in 0.092752 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表