内部化自洽性在语言模型中：多智能体共识对齐

于红博 · 发表于 2025-9-21 14:45:59

摘要: 语言模型（LMs）是不一致的推理者，经常对相同的提示产生矛盾的回应。虽然推理时方法可以缓解这些不一致性，但无法解决核心问题：LMs难以可靠地选择导致一致结果的推理路径，在探索性抽样中。为了解决这个问题，我们将自一致性形式化为与良好对齐的推理模型的内在属性，并引入多智能体一致性对齐（MACA），这是一个强化学习框架，用于后训练模型以支持与其内部一致性对齐的推理轨迹，使用多智能体辩论的多数/少数结果。这些轨迹出现在代理商之间的审议交流中，代理商在其中以同行论证为基础，而不仅仅是独立尝试的聚合，从而创造比单轮多数投票更丰富的共识信号。MACA使代理商能够自我教导，变得更果断和简明，并更好地利用多智能体环境中的同行见解，无需外部监督，在自一致性（GSM8K上+27.6%）、单一智能体推理（数学上+23.7%）、基于抽样的推理（数学上20%通过率+22.4%）、以及多智能体集成决策制定（MathQA上+42.7%）方面实现了显著的改进。这些发现与对未见基准的强大泛化（GPQA上+16.3%，CommonsenseQA上+11.6%）相结合，展示了更可靠地释放语言模型潜在推理潜力的强大自对齐能力。

更新时间: 2025-09-18 17:27:28

领域: cs.AI

下载: http://arxiv.org/abs/2509.15172v1

		自动登录	找回密码
密码			立即注册

内部化自洽性在语言模型中：多智能体共识对齐

浏览过的版块