找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 50|回复: 0

多智能体进化:通过共同进化实现LLM自我改进

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 21:55:49 | 显示全部楼层 |阅读模式
摘要: 强化学习(RL)已经显示出在增强大型语言模型(LLMs)的推理能力方面具有重要潜力。然而,RL对于LLMs的成功在很大程度上依赖于人为策划的数据集和可验证的奖励,这限制了它们的可扩展性和普遍性。受游戏和围棋范例成功的启发,最近的自我对弈RL方法旨在增强LLM的推理能力,而无需人工标注的数据。然而,它们的方法主要依赖于一个基础环境来提供反馈(例如Python解释器或游戏引擎);将它们扩展到一般领域仍然具有挑战性。为了解决这些挑战,我们提出了多智能体进化(MAE)框架,该框架使LLMs能够自我进化解决各种任务,包括数学、推理和一般知识问答。MAE的核心设计基于三个相互作用的代理(提议者、解决者、评判者),它们从一个单一的LLM实例化,并应用强化学习来优化它们的行为。提议者生成问题,解决者尝试解决方案,评判者评估两者,并在共同进化。在Qwen2.5-3B-Instruct上的实验表明,MAE在多个基准测试中平均改进了4.54%。这些结果突显了MAE作为一种可扩展的、数据高效的方法,可以在最小程度上依赖于人工策划的监督来增强LLMs的一般推理能力。
更新时间: 2025-10-30 04:45:55
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.087633 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表