《垄断交易：有限单边响应游戏的基准环境》

于红博 · 发表于 2025-11-2 19:08:50

摘要: 纸牌游戏被广泛用于研究在不确定性下的顺序决策，与谈判、金融和网络安全等现实世界类似。这些游戏通常分为三类，根据控制流程：严格的顺序（玩家轮流执行单个动作），确定性响应（某些动作触发固定结果）和无限循环响应（允许交替对打）。一个较少探索但策略丰富的结构是有界单边响应，其中玩家的动作暂时将控制权转移给对手，对手必须通过一个或多个动作满足一个固定条件，然后轮到自己。我们将具有这种机制的游戏称为有界单边响应游戏（BORGs）。我们引入了《大富翁交易版》的修改版本作为一个基准环境，其中一个“租金”动作迫使对手选择付款资产。金标准算法，对抗性遗憾最小化（Counterfactual Regret Minimization，CFR），在没有新颖算法扩展的情况下收敛于有效策略。一个轻量级的全栈研究平台统一了环境、并行化的CFR运行时和一个可供人类玩家使用的网络界面。训练过的CFR代理和源代码可在https://monopolydeal.ai上找到。

更新时间: 2025-10-30 12:16:59

领域: cs.GT,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.25080v2

		自动登录	找回密码
密码			立即注册