找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 4|回复: 0

增强学习增强的LLM代理用于协作决策制定和性能优化

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:21:17 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLM)在语言任务中表现良好,但通常缺乏协作意识,并且在多智能体环境中很难优化全局性能。我们提出了一种增强强化学习的LLM代理框架,将合作形式化为分布式部分可观察马尔可夫决策过程(Dec-POMDP),采用集中训练与分散执行(CTDE)。我们引入了群体相对策略优化(GRPO)来在训练期间共同优化代理策略,同时使用一种简化的联合奖励来平衡任务质量、速度和协调成本。在协作写作和编码基准测试中,我们的框架相对于单一代理基准线实现了3倍的任务处理速度提高,98.7%的写作结构/风格一致性,并且在编码方面具有74.6%的测试通过率。该方法始终优于强大的多智能体LLM基准线,并为在复杂工作流程中可靠协作提供了实际途径。
更新时间: 2025-12-31 03:59:18
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:03 , Processed in 0.080130 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表