找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 36|回复: 0

WebGen-Agent: 使用多级反馈和步级强化学习增强交互式网站生成

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:46:49 | 显示全部楼层 |阅读模式
摘要: 由大型语言模型(LLMs)驱动的代理系统在代码生成任务的存储库级别上表现出色。然而,对于依赖视觉效果和用户交互反馈的网站代码库生成等任务,当前的代码代理仅依赖简单的代码执行进行反馈和验证。这种方法未能捕捉生成代码的实际质量。在本文中,我们提出了WebGen-Agent,这是一种新颖的网站生成代理,利用全面和多层次的视觉反馈来迭代生成和完善网站代码库。由视觉语言模型(VLM)生成有关网站的截图和GUI代理测试的详细和富有表现力的文本描述和建议,以及量化它们质量的分数。截图和GUI代理分数进一步与回溯和选择最佳机制相结合,提升了代理的性能。利用WebGen-Agent工作流中准确的视觉分数,我们进一步引入了\textit{具有截图和GUI代理反馈的Step-GRPO}来提高LLMs作为WebGen-Agent推理引擎的能力。通过在Step-GRPO中使用每个步骤的截图和GUI代理分数作为奖励,我们提供了一种密集和可靠的过程监督信号,有效提升了模型的网站生成能力。在WebGen-Bench数据集上,WebGen-Agent将Claude-3.5-Sonnet的准确性从26.4%提高到51.9%,外观分数从3.0提高到3.9,超越了先前的最先进代理系统。此外,我们的Step-GRPO训练方法将Qwen2.5-Coder-7B-Instruct的准确性从38.9%提高到45.4%,外观分数从3.4提高到3.7。
更新时间: 2025-09-26 17:59:51
领域: cs.CL,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.079679 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表