|
摘要: 强化学习(RL)已经显示出在增强大型语言模型(LLMs)的推理能力方面具有重要潜力。然而,RL对于LLMs的成功在很大程度上依赖于人为策划的数据集和可验证的奖励,这限制了它们的可扩展性和普遍性。受游戏和围棋范例成功的启发,最近的自我对弈RL方法旨在增强LLM的推理能力,而无需人工标注的数据。然而,它们的方法主要依赖于一个基础环境来提供反馈(例如Python解释器或游戏引擎);将它们扩展到一般领域仍然具有挑战性。为了解决这些挑战,我们提出了多智能体进化(MAE)框架,该框架使LLMs能够自我进化解决各种任务,包括数学、推理和一般知识问答。MAE的核心设计基于三个相互作用的代理(提议者、解决者、评判者),它们从一个单一的LLM实例化,并应用强化学习来优化它们的行为。提议者生成问题,解决者尝试解决方案,评判者评估两者,并在共同进化。在Qwen2.5-3B-Instruct上的实验表明,MAE在多个基准测试中平均改进了4.54%。这些结果突显了MAE作为一种可扩展的、数据高效的方法,可以在最小程度上依赖于人工策划的监督来增强LLMs的一般推理能力。 更新时间: 2025-10-30 04:45:55 领域: cs.AI
|