找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 37|回复: 0

混合DQN-TD3强化学习用于动态环境下的自主导航

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:46:59 | 显示全部楼层 |阅读模式
摘要: 本文提出了一个层次化的路径规划和控制框架,将高层Deep Q-Network(DQN)用于离散子目标选择与低层Twin Delayed Deep Deterministic Policy Gradient(TD3)控制器结合,用于连续执行。高层模块选择行为和子目标;低层模块执行平滑速度指令。我们设计了一个实用的奖励塑造方案(方向、距离、避障、动作平滑性、碰撞惩罚、时间惩罚和进展),以及基于LiDAR的安全门,防止不安全的运动。该系统在ROS + Gazebo(TurtleBot3)中实施,并使用PathBench指标进行评估,包括成功率、碰撞率、路径效率和重新规划效率,在动态和部分可观察的环境中。实验表明,相比单一算法基线(仅DQN或TD3)和基于规则的规划者,该系统的成功率和样本效率有所提高,并对未知障碍配置具有更好的泛化能力,并减少了突然的控制变化。代码和评估脚本可在项目存储库中找到。
更新时间: 2025-10-30 16:12:01
领域: cs.RO,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:50 , Processed in 0.074367 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表