找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

一步即可:基于一步策略优化的多智能体强化学习在顺风车平台订单调度中的应用

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:19:10 | 显示全部楼层 |阅读模式
摘要: 订单调度是具有自主车辆(AVs)的拼车系统中的关键任务,直接影响效率和利润。最近,多Agent强化学习(MARL)已经成为解决这一问题的有希望的解决方案,通过将大的状态和动作空间分解成单个代理之间,有效地解决了交通市场中的维度诅咒(CoD),这是由大量车辆、乘客和订单引起的。然而,传统的基于MARL的方法严重依赖于价值函数的准确估计,在大规模、高度不确定的环境中变得困难。为了解决这个问题,我们提出了两种绕过值函数估计的新方法,利用AV车队的同质性特性。首先,我们在AV车队和Group Relative Policy Optimization(GRPO)中的组之间画了一个类比,将其调整为订单调度任务。通过用组平均奖励代替Proximal Policy Optimization(PPO)基准线,GRPO消除了批评家的估计错误,并减少了训练偏差。受到这个基准线替换的启发,我们进一步提出了一步策略优化(OSPO),证明在同质车队下只使用一步组奖励就可以训练出最佳策略。对真实世界拼车数据集的实验表明,GRPO和OSPO在所有情况下都取得了令人满意的性能,使用简单的多层感知器(MLP)网络有效优化了接送时间和服务订单数量。此外,OSPO在所有情况下表现优于GRPO,这归因于其消除了由于GRPO有限时间范围而引起的偏差。我们的代码、训练模型和处理过的数据可以在https://github.com/RS2002/OSPO上找到。
更新时间: 2025-12-31 05:00:32
领域: cs.AI,cs.ET,cs.MA

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-13 07:01 , Processed in 0.090321 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表