找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 11|回复: 0

ELMUR: 长时间线强化学习的具有更新/重写功能的外部层内存

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:35:36 | 显示全部楼层 |阅读模式
摘要: 真实世界的机器人代理必须在部分可观测性和长期规划下行动,关键线索可能出现在影响决策之前很久。然而,大多数现代方法仅依赖即时信息,没有融入过去的见解。标准的循环或转换器模型在保留和利用长期依赖性方面存在困难:上下文窗口截断历史,而朴素的内存扩展在规模和稀疏性下失败。我们提出ELMUR(带有更新/重写的外部层内存),这是一种带有结构化外部内存的转换器架构。每个层维护内存嵌入,通过双向交叉注意力与其交互,并通过最近最少使用(LRU)内存模块使用替换或凸混合更新它们。ELMUR将有效范围延伸到关注窗口之外的100,000倍,并在具有长达一百万步的走廊的合成T迷宫任务上实现了100%的成功率。在POPGym中,它在超过一半的任务上优于基线。在MIKASA-Robo稀疏奖励操纵任务中,凭借视觉观察,它将强基线的表现几乎提高了一倍。这些结果表明,结构化的、层本地的外部内存为在部分可观测性下进行决策提供了一种简单且可扩展的方法。
更新时间: 2025-10-08 15:50:34
领域: cs.LG,cs.AI,cs.RO

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:39 , Processed in 0.078484 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表