找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 38|回复: 0

《监督游戏:学习如何协作平衡AI代理的安全性和自主性》

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:26:40 | 显示全部楼层 |阅读模式
摘要: 随着越来越强大的代理程序的部署,一个中心的安全问题是如何在不修改基础系统的情况下保持有意义的人类控制。我们研究了一个最小控制界面,其中一个代理程序选择是否自主行动(玩)或推迟(询问),同时一个人同时选择是否宽容(信任)或参与监督(监督)。如果代理程序推迟,人类的选择决定结果,可能导致纠正行动或系统关闭。我们将这种互动建模为一个二人马尔可夫博弈。我们的分析重点放在这个游戏被视为马尔可夫潜在博弈(MPG)的情况,这是一个我们可以提供对齐保证的博弈类别:在对人类价值函数的结构性假设下,代理程序决定更自主行动的任何决定都不会损害人类的价值。我们还分析了对这种MPG框架的扩展。从理论上讲,这个视角提供了特定形式的内在对齐的条件。如果人类-代理程序游戏的奖励结构符合这些条件,我们就有了一个正式的保证,即代理程序改善自身结果不会损害人类的结果。实际上,这个模型激励建立一个透明的控制层,具有可预测的激励,代理程序在危险时学会推迟行动,在安全时采取行动,同时其预先训练的策略和环境的奖励结构保持不变。我们的网格世界模拟显示,通过独立学习,代理程序和人类发现了他们的最佳监督角色。代理程序学会在不确定时询问,人类学会何时进行监督,从而导致一种避免在训练后引入安全违规的新型合作关系的出现。这展示了在部署后使不对齐的模型更安全的实际方法。
更新时间: 2025-10-30 17:46:49
领域: cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:51 , Processed in 0.091414 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表