|
摘要: 由大型语言模型(LLMs)驱动的代理系统在代码生成任务的存储库级别上表现出色。然而,对于依赖视觉效果和用户交互反馈的网站代码库生成等任务,当前的代码代理仅依赖简单的代码执行进行反馈和验证。这种方法未能捕捉生成代码的实际质量。在本文中,我们提出了WebGen-Agent,这是一种新颖的网站生成代理,利用全面和多层次的视觉反馈来迭代生成和完善网站代码库。由视觉语言模型(VLM)生成有关网站的截图和GUI代理测试的详细和富有表现力的文本描述和建议,以及量化它们质量的分数。截图和GUI代理分数进一步与回溯和选择最佳机制相结合,提升了代理的性能。利用WebGen-Agent工作流中准确的视觉分数,我们进一步引入了\textit{具有截图和GUI代理反馈的Step-GRPO}来提高LLMs作为WebGen-Agent推理引擎的能力。通过在Step-GRPO中使用每个步骤的截图和GUI代理分数作为奖励,我们提供了一种密集和可靠的过程监督信号,有效提升了模型的网站生成能力。在WebGen-Bench数据集上,WebGen-Agent将Claude-3.5-Sonnet的准确性从26.4%提高到51.9%,外观分数从3.0提高到3.9,超越了先前的最先进代理系统。此外,我们的Step-GRPO训练方法将Qwen2.5-Coder-7B-Instruct的准确性从38.9%提高到45.4%,外观分数从3.4提高到3.7。 更新时间: 2025-09-26 17:59:51 领域: cs.CL,cs.AI
|