找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 23|回复: 0

基础模型作为世界模型:基于文本的GridWorlds中的基础研究

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:51:57 | 显示全部楼层 |阅读模式
摘要: 尽管从零开始的强化学习在使用高效仿真器解决顺序决策任务方面表现出色,但在需要昂贵交互的实际应用中,需要更具样本效率的代理。基础模型(FMs)是改进样本效率的自然选择,因为它们具有广泛的知识和推理能力,但如何有效地将它们整合到强化学习框架中尚不清楚。在本文中,我们预期并最重要地评估了两种有前途的策略。首先,我们考虑使用基础世界模型(FWMs),利用FMs的先验知识来训练和评估代理与模拟交互。其次,我们考虑利用FMs的推理能力进行决策的基础代理(FAs)。我们在一系列适合当前一代大型语言模型(LLMs)的网格环境中对这两种方法进行了实证评估。我们的结果表明,LLMs的改进已经转化为更好的FWMs和FAs;基于当前LLMs的FAs已经可以为足够简单的环境提供出色的策略;同时FWMs与强化学习代理的耦合对于具有部分可观测性和随机元素的更复杂环境是非常有前途的。
更新时间: 2025-09-19 12:10:28
领域: cs.LG,cs.AI,68T05,I.2.6; I.2.8

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 15:35 , Processed in 0.080674 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表