找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 29|回复: 0

强化学习用于自主水下载具在随机、稀疏和非稳态环境中的污染检测

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:55:32 | 显示全部楼层 |阅读模式
摘要: 强化学习(RL)算法旨在通过学习最大化奖励的动作来优化问题解决,这在随机和非稳态环境中变得特别具有挑战性。即使是先进的RL算法在解决这些条件下的问题时也经常受到限制。在诸如利用自主水下载具(AUVs)搜索水下污染云的应用中,RL算法必须导航奖励稀疏的环境,其中动作经常导致零奖励。本文旨在通过重新审视和修改经典RL方法,以便在稀疏、随机和非稳态环境中高效运作。我们系统地研究了大量的修改,包括层次算法变更、多目标学习,以及将位置记忆集成为外部输出过滤器以防止状态重访。我们的结果表明,一种改进的基于蒙特卡罗的方法明显优于传统的Q学习和两种穷举搜索模式,展示了其在适应RL到复杂环境中的潜力。这些发现表明,强化学习方法可以有效地适应随机、非稳态和奖励稀疏的环境中的使用。
更新时间: 2025-10-30 10:55:05
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:03 , Processed in 0.088015 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表