找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 33|回复: 0

代理能征服网络吗?探索ChatGPT Atlas代理在网络游戏中的边界

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:01:00 | 显示全部楼层 |阅读模式
摘要: OpenAI的ChatGPT Atlas引入了新的能力,使模型能够分析网页、处理用户意图,并在浏览器内直接执行光标和键盘输入,从而增强了网络交互的功能。尽管其信息检索任务的能力已经得到证明,但其在动态、交互式环境中的表现仍未得到充分探讨。在本研究中,我们利用基于浏览器的游戏作为测试场景,包括Google的T-Rex Runner、数独、Flappy Bird和Stein.world,对Atlas的网络交互能力进行了早期评估。我们使用游戏内表现分数作为量化指标,评估不同任务类型的性能。我们的结果显示,Atlas在像数独这样的逻辑推理任务中表现出色,完成拼图比人类基线明显更快,但在需要精准时间和运动控制的实时游戏中遇到了很大困难,经常无法越过初始障碍。这些发现表明,虽然Atlas展示了出色的分析处理能力,但在需要实时交互的动态网络环境中仍存在明显的限制。我们项目的网站可以在https://atlas-game-eval.github.io找到。
更新时间: 2025-10-30 09:35:51
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:03 , Processed in 0.088192 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表