在黑暗中寻找：通过测试时间实例级策略梯度在潜在空间中推理

于红博 · 发表于 2025-11-2 21:47:50

摘要: Reasoning ability, 人类智能的核心组成部分，对于追求AGI的大型语言模型（LLMs）仍然构成重大挑战。尽管模型在训练扩展定律下的表现有所改善，但仍然存在重大挑战，特别是在训练算法方面，如灾难性遗忘，以及新颖训练数据的有限可用性。作为一种替代方案，测试时间扩展通过增加测试时间计算而不进行参数更新，从而增强了推理性能。与以往专注于标记空间的这一范式的方法不同，我们提出利用潜在空间进行更有效的推理和更好地遵守测试时间扩展定律。我们介绍了LatentSeek，这是一个通过模型潜在空间内的测试时间实例级适应（TTIA）来增强LLM推理的新框架。具体来说，LatentSeek利用策略梯度来迭代更新潜在表示，受自动生成的奖励信号指导。LatentSeek在一系列推理基准测试中进行了评估，包括GSM8K、MATH-500和AIME2024，跨多个LLM架构。结果显示，LatentSeek始终优于强基线方法，如Chain-of-Thought提示和基于微调的方法。此外，我们的分析表明，LatentSeek非常高效，通常在几次迭代内就能收敛到平均复杂性的问题，同时受益于额外的迭代，从而突显了潜在空间的测试时间扩展潜力。这些发现将LatentSeek定位为增强LLM推理能力的轻巧、可扩展和有效解决方案。

更新时间: 2025-10-30 06:23:27

领域: cs.LG,cs.AI,cs.CL

下载: http://arxiv.org/abs/2505.13308v2

		自动登录	找回密码
密码			立即注册