|
摘要: 订单调度是具有自主车辆(AVs)的拼车系统中的关键任务,直接影响效率和利润。最近,多Agent强化学习(MARL)已经成为解决这一问题的有希望的解决方案,通过将大的状态和动作空间分解成单个代理之间,有效地解决了交通市场中的维度诅咒(CoD),这是由大量车辆、乘客和订单引起的。然而,传统的基于MARL的方法严重依赖于价值函数的准确估计,在大规模、高度不确定的环境中变得困难。为了解决这个问题,我们提出了两种绕过值函数估计的新方法,利用AV车队的同质性特性。首先,我们在AV车队和Group Relative Policy Optimization(GRPO)中的组之间画了一个类比,将其调整为订单调度任务。通过用组平均奖励代替Proximal Policy Optimization(PPO)基准线,GRPO消除了批评家的估计错误,并减少了训练偏差。受到这个基准线替换的启发,我们进一步提出了一步策略优化(OSPO),证明在同质车队下只使用一步组奖励就可以训练出最佳策略。对真实世界拼车数据集的实验表明,GRPO和OSPO在所有情况下都取得了令人满意的性能,使用简单的多层感知器(MLP)网络有效优化了接送时间和服务订单数量。此外,OSPO在所有情况下表现优于GRPO,这归因于其消除了由于GRPO有限时间范围而引起的偏差。我们的代码、训练模型和处理过的数据可以在https://github.com/RS2002/OSPO上找到。 更新时间: 2025-12-31 05:00:32 领域: cs.AI,cs.ET,cs.MA
|