GUI知识基准：揭示GUI任务中VLM失败背后的知识差距

于红博 · 发表于 2025-11-2 22:06:00

摘要: 大型视觉语言模型（VLMs）已经推动了图形用户界面（GUI）任务自动化，但仍然落后于人类。我们假设这种差距源于缺少核心的GUI知识，现有的训练方案（如监督微调和强化学习）单独无法完全解决。通过分析GUI任务执行中常见的失败模式，我们将GUI知识概括为三个维度：（1）界面感知，即识别小部件和系统状态的知识；（2）交互预测，即推理动作状态转换的知识；以及（3）指令理解，即计划、验证和评估任务完成进度的知识。我们进一步引入了GUI知识基准（GUI Knowledge Bench），这是一个跨六个平台（Web、Android、MacOS、Windows、Linux、IOS）和292个应用程序的具有多项选择和是/否问题的基准。我们的评估表明，当前的VLMs能够识别小部件功能，但在感知系统状态、预测动作和验证任务完成方面仍有困难。在真实世界的GUI任务上的实验进一步验证了GUI知识与任务成功之间的密切联系。通过提供一个评估GUI知识的结构化框架，我们的工作支持在下游训练之前选择具有更大潜力的VLMs，并为构建更有能力的GUI代理提供了见解。

更新时间: 2025-10-30 03:22:30

领域: cs.AI

下载: http://arxiv.org/abs/2510.26098v1

		自动登录	找回密码
密码			立即注册