|
摘要: 大型语言模型(LLMs)中的空间推理因在导航和规划中的应用而受到越来越多的关注。尽管具有强大的通用语言能力,LLMs仍然在结构化环境中的空间转换和多步规划方面存在困难。我们提出了一个两阶段方法,将空间推理分解为原子构建模块及其组合。首先,我们在基本空间转换(如旋转、平移和缩放)上应用监督微调,以装备模型具备基本的空间物理知识。然后,我们冻结这个具有物理意识的模型,并在GRPO框架内训练轻量级的LoRA适配器,学习在基于谜题的环境中以闭环方式组合这些构建模块进行多步规划的策略。为了支持这一流程,我们合成了一个ASCII艺术数据集,并构建了相应的基于ASCII的强化学习环境。我们的方法在动态环境和静态环境下均始终优于基线,包括通用主干、具有物理意识的模型和端到端RL模型。此外,与从头开始的端到端强化学习相比,所提出的方法收敛更快,训练更稳定。最后,我们分析注意力模式,以评估微调是否引起空间理解方面的有意义改进。 更新时间: 2025-12-31 00:36:03 领域: cs.AI,cs.CL
|