摘要: 我们提出了V-Droid,一种移动GUI任务自动化代理。与以往利用大型语言模型(LLMs)作为生成器直接在每个步骤生成动作的移动代理不同,V-Droid将LLMs作为验证器,在做出最终决策之前评估候选动作。为了实现这一新颖范式,我们引入了一个全面的框架来构建基于验证器的移动代理:离散化行动空间构建与仅预填工作流相结合,以加速验证过程,成对进度偏好训练以显著增强验证器的决策能力,以及可扩展的人-代理联合注释方案,以高效地收集所需的数据。V-Droid在几个公共移动任务自动化基准测试中获得了显着的任务成功率:在AndroidWorld上为59.5%,在AndroidLab上为38.3%,在MobileAgentBench上为49%,分别比现有代理高出5.2%,2.1%和9%。此外,V-Droid每步的延迟非常低,为4.3秒,比现有移动代理快6.1倍。源代码可在https://github.com/V-Droid-Agent/V-Droid上找到。 更新时间: 2025-10-30 04:00:20 领域: cs.AI
|