找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 49|回复: 0

GUI知识基准:揭示GUI任务中VLM失败背后的知识差距

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 22:06:00 | 显示全部楼层 |阅读模式
摘要: 大型视觉语言模型(VLMs)已经推动了图形用户界面(GUI)任务自动化,但仍然落后于人类。我们假设这种差距源于缺少核心的GUI知识,现有的训练方案(如监督微调和强化学习)单独无法完全解决。通过分析GUI任务执行中常见的失败模式,我们将GUI知识概括为三个维度:(1)界面感知,即识别小部件和系统状态的知识;(2)交互预测,即推理动作状态转换的知识;以及(3)指令理解,即计划、验证和评估任务完成进度的知识。我们进一步引入了GUI知识基准(GUI Knowledge Bench),这是一个跨六个平台(Web、Android、MacOS、Windows、Linux、IOS)和292个应用程序的具有多项选择和是/否问题的基准。我们的评估表明,当前的VLMs能够识别小部件功能,但在感知系统状态、预测动作和验证任务完成方面仍有困难。在真实世界的GUI任务上的实验进一步验证了GUI知识与任务成功之间的密切联系。通过提供一个评估GUI知识的结构化框架,我们的工作支持在下游训练之前选择具有更大潜力的VLMs,并为构建更有能力的GUI代理提供了见解。
更新时间: 2025-10-30 03:22:30
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:00 , Processed in 0.084833 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表