找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

从构建块到规划:LLMs中的多步空间推理与强化学习

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:24:50 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)中的空间推理因在导航和规划中的应用而受到越来越多的关注。尽管具有强大的通用语言能力,LLMs仍然在结构化环境中的空间转换和多步规划方面存在困难。我们提出了一个两阶段方法,将空间推理分解为原子构建模块及其组合。首先,我们在基本空间转换(如旋转、平移和缩放)上应用监督微调,以装备模型具备基本的空间物理知识。然后,我们冻结这个具有物理意识的模型,并在GRPO框架内训练轻量级的LoRA适配器,学习在基于谜题的环境中以闭环方式组合这些构建模块进行多步规划的策略。为了支持这一流程,我们合成了一个ASCII艺术数据集,并构建了相应的基于ASCII的强化学习环境。我们的方法在动态环境和静态环境下均始终优于基线,包括通用主干、具有物理意识的模型和端到端RL模型。此外,与从头开始的端到端强化学习相比,所提出的方法收敛更快,训练更稳定。最后,我们分析注意力模式,以评估微调是否引起空间理解方面的有意义改进。
更新时间: 2025-12-31 00:36:03
领域: cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 14:25 , Processed in 0.086779 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表