找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 18|回复: 0

思考行动:通过强化视觉潜在规划实现视觉-语言-行动推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-21 14:55:55 | 显示全部楼层 |阅读模式
摘要: 视觉语言动作(VLA)推理任务要求代理人解释多模态指令,进行长时程规划,并在动态环境中适应性地行动。现有方法通常以端到端的方式训练VLA模型,直接将输入映射到行动,而不进行明确的推理,这妨碍了它们在多步规划或适应复杂任务变化的能力。在本文中,我们提出了ThinkAct,一个双系统框架,通过强化视觉潜在规划,将高级推理与低级行动执行联系起来。ThinkAct训练一个多模态LLM生成由强化的与行动对齐的视觉奖励引导的具体推理计划,基于目标完成和轨迹一致性。这些推理计划被压缩成一个视觉计划潜在,该潜在条件化下游行动模型,以在目标环境中执行强大的行动。对具体推理和机器人操作基准的广泛实验表明,ThinkAct使得在复杂的具体AI任务中实现少样本适应、长时程规划和自我校正行为成为可能。
更新时间: 2025-09-18 16:26:53
领域: cs.CV,cs.AI,cs.LG,cs.RO

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-11-1 18:17 , Processed in 0.073380 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表