推进移动GUI代理：一种验证驱动的实用部署方法

于红博 · 发表于 2025-11-2 22:00:15

摘要: 我们提出了V-Droid，一种移动GUI任务自动化代理。与以往利用大型语言模型（LLMs）作为生成器直接在每个步骤生成动作的移动代理不同，V-Droid将LLMs作为验证器，在做出最终决策之前评估候选动作。为了实现这一新颖范式，我们引入了一个全面的框架来构建基于验证器的移动代理：离散化行动空间构建与仅预填工作流相结合，以加速验证过程，成对进度偏好训练以显著增强验证器的决策能力，以及可扩展的人-代理联合注释方案，以高效地收集所需的数据。V-Droid在几个公共移动任务自动化基准测试中获得了显着的任务成功率：在AndroidWorld上为59.5％，在AndroidLab上为38.3％，在MobileAgentBench上为49％，分别比现有代理高出5.2％，2.1％和9％。此外，V-Droid每步的延迟非常低，为4.3秒，比现有移动代理快6.1倍。源代码可在https://github.com/V-Droid-Agent/V-Droid上找到。

更新时间: 2025-10-30 04:00:20

领域: cs.AI

下载: http://arxiv.org/abs/2503.15937v4

		自动登录	找回密码
密码			立即注册