摘要: 构建具有灵巧操纵能力的智能代理对于在机器人学和数字环境中实现类似人类的自动化至关重要。然而,现有的GUI代理依赖于离散的点击预测(x,y),这限制了需要连续、即时感知和调整的自由形式、闭环轨迹(例如拖动进度条)。在这项工作中,我们开发了ShowUI-$π$,将其作为GUI灵巧手的第一个基于流的生成模型,具有以下设计:(i) 统一的离散-连续动作,将离散点击和连续拖动集成到一个共享模型中,实现跨多种交互模式的灵活适应;(ii) 基于流的动作生成用于拖动建模,通过轻量级动作专家从连续的视觉观察中预测增量光标调整,确保平稳和稳定的轨迹;(iii) 拖动训练数据和基准,我们手动收集和合成了来自五个领域(例如PowerPoint、Adobe Premiere Pro)的20K个拖动轨迹,并引入了ScreenDrag,一个具有全面在线和离线评估协议的基准,用于评估GUI代理的拖动能力。我们的实验表明,专有的GUI代理仍然在ScreenDrag上遇到困难(例如Operator得分13.27,最佳的Gemini-2.5-CUA达到22.18)。相比之下,ShowUI-$π$仅使用450M参数就实现了26.98的成绩,突显了任务的困难性以及我们方法的有效性。我们希望这项工作将GUI代理推进到数字世界中类似人类的灵巧控制。代码可在https://github.com/showlab/showui-pi上找到。 更新时间: 2025-12-31 16:51:14 领域: cs.CV,cs.AI,cs.HC
|