找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 43|回复: 0

《垄断交易:有限单边响应游戏的基准环境》

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:08:50 | 显示全部楼层 |阅读模式
摘要: 纸牌游戏被广泛用于研究在不确定性下的顺序决策,与谈判、金融和网络安全等现实世界类似。这些游戏通常分为三类,根据控制流程:严格的顺序(玩家轮流执行单个动作),确定性响应(某些动作触发固定结果)和无限循环响应(允许交替对打)。一个较少探索但策略丰富的结构是有界单边响应,其中玩家的动作暂时将控制权转移给对手,对手必须通过一个或多个动作满足一个固定条件,然后轮到自己。我们将具有这种机制的游戏称为有界单边响应游戏(BORGs)。我们引入了《大富翁交易版》的修改版本作为一个基准环境,其中一个“租金”动作迫使对手选择付款资产。金标准算法,对抗性遗憾最小化(Counterfactual Regret Minimization,CFR),在没有新颖算法扩展的情况下收敛于有效策略。一个轻量级的全栈研究平台统一了环境、并行化的CFR运行时和一个可供人类玩家使用的网络界面。训练过的CFR代理和源代码可在https://monopolydeal.ai上找到。
更新时间: 2025-10-30 12:16:59
领域: cs.GT,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:34 , Processed in 0.074260 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表