|
摘要: 大型视觉语言模型(VLMs)已经推动了图形用户界面(GUI)任务自动化,但仍然落后于人类。我们假设这种差距源于缺少核心的GUI知识,现有的训练方案(如监督微调和强化学习)单独无法完全解决。通过分析GUI任务执行中常见的失败模式,我们将GUI知识概括为三个维度:(1)界面感知,即识别小部件和系统状态的知识;(2)交互预测,即推理动作状态转换的知识;以及(3)指令理解,即计划、验证和评估任务完成进度的知识。我们进一步引入了GUI知识基准(GUI Knowledge Bench),这是一个跨六个平台(Web、Android、MacOS、Windows、Linux、IOS)和292个应用程序的具有多项选择和是/否问题的基准。我们的评估表明,当前的VLMs能够识别小部件功能,但在感知系统状态、预测动作和验证任务完成方面仍有困难。在真实世界的GUI任务上的实验进一步验证了GUI知识与任务成功之间的密切联系。通过提供一个评估GUI知识的结构化框架,我们的工作支持在下游训练之前选择具有更大潜力的VLMs,并为构建更有能力的GUI代理提供了见解。 更新时间: 2025-10-30 03:22:30 领域: cs.AI
|