摘要: 纸牌游戏被广泛用于研究在不确定性下的顺序决策,与谈判、金融和网络安全等现实世界类似。这些游戏通常分为三类,根据控制流程:严格的顺序(玩家轮流执行单个动作),确定性响应(某些动作触发固定结果)和无限循环响应(允许交替对打)。一个较少探索但策略丰富的结构是有界单边响应,其中玩家的动作暂时将控制权转移给对手,对手必须通过一个或多个动作满足一个固定条件,然后轮到自己。我们将具有这种机制的游戏称为有界单边响应游戏(BORGs)。我们引入了《大富翁交易版》的修改版本作为一个基准环境,其中一个“租金”动作迫使对手选择付款资产。金标准算法,对抗性遗憾最小化(Counterfactual Regret Minimization,CFR),在没有新颖算法扩展的情况下收敛于有效策略。一个轻量级的全栈研究平台统一了环境、并行化的CFR运行时和一个可供人类玩家使用的网络界面。训练过的CFR代理和源代码可在https://monopolydeal.ai上找到。 更新时间: 2025-10-30 12:16:59 领域: cs.GT,cs.AI,cs.LG
|