|
摘要: 基于群体的强化学习(RL)在复杂的推理和数学任务上表现出令人印象深刻的结果。然而,当应用于训练多轮、交互式LLM代理时,这些方法通常会遭受结构盲点的困扰-即无法利用环境的基础连通性。这体现在三个关键挑战中:(1)低效的、无导向的探索,(2)由于忽视关键状态而导致的不精确的信用分配,以及(3)由静态奖励折扣引起的目光短浅的规划。我们通过图增强策略优化(GEPO)来解决这些问题,它从代理经验动态构建状态转移图,并利用图论中心性提供三种协同学习信号:(1)引导探索向高影响状态的结构内在奖励,(2)用于拓扑感知信用分配的图增强优势函数,以及(3)针对每个状态的战略价值调整的动态折扣因子。在ALFWorld、WebShop和专有的Workbench基准测试中,GEPO展现出强大的性能,相对成功率分别比竞争基准提高了+4.1%、+5.3%和+10.9%。这些结果突显了明确地建模环境结构是推进LLM代理训练的一种稳健、可推广的策略。 更新时间: 2025-10-30 08:53:41 领域: cs.AI
|