|
摘要: 在人工智能驱动的人机界面交互自动化领域,虽然多模态大型语言模型和强化微调技术的快速进展取得了显著进展,但一个基本挑战仍然存在:它们的交互逻辑与自然人机界面通信模式有显著偏离。为填补这一空白,我们提出了“眨眼-思考-关联”(BTL)的脑启发框架,用于模仿用户和图形界面之间的人类认知过程。该系统将交互分解为三个生物学合理的阶段:(1)眨眼-快速检测和关注相关屏幕区域,类似于快速眼动;(2)思考-更高级别的推理和决策制定,反映认知规划;和(3)关联-生成可执行命令以进行精确的运动控制,模拟人类动作选择机制。此外,我们为BTL框架引入了两项关键技术创新:(1)眨眼数据生成-专门针对眨眼数据优化的自动注释管道,和(2)BTL奖励-第一个基于规则的奖励机制,可实现同时受过程和结果驱动的强化学习。基于这一框架,我们开发了名为BTL-UI的GUI代理模型,展示了在全面基准测试中静态GUI理解和动态交互任务中一致的最新性能。这些结果提供了对该框架在开发先进GUI代理方面有效性的确凿经验证实。 更新时间: 2025-09-19 04:03:44 领域: cs.CV,cs.AI
|