找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 28|回复: 0

通过离线奖励评估和策略搜索增强生成式自动出价

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-22 19:51:06 | 显示全部楼层 |阅读模式
摘要: 自动竞标是广告商提升广告表现的必备工具。最近的进展表明,人工智能生成竞价(AIGB)将自动竞标作为一项轨迹生成任务,并在离线数据上训练条件扩散式规划器,相比典型的基于离线强化学习(RL)的自动竞标方法,实现了更优越和稳定的表现。然而,现有的AIGB方法仍然遇到表现瓶颈,因为它们忽视了细粒度生成质量评估以及无法探索超越静态数据集。为了解决这个问题,我们提出了AIGB-Pearl(通过RL进行评估的规划),这是一种集成生成规划和策略优化的新方法。AIGB-Pearl的关键是构建一个非引导式轨迹评估器,分配奖励并引导策略搜索,使规划器能够通过互动迭代地优化其生成质量。此外,为了增强离线设置中轨迹评估器的准确性,我们结合了三项关键技术:(i)基于大型语言模型(LLM)的架构,以提高表征能力,(ii)混合的点对点和对等损失以提高得分学习,以及(iii)自适应集成专家反馈以提高泛化能力。对模拟和真实世界广告系统的大量实验表明了我们方法的最先进表现。
更新时间: 2025-09-19 12:30:26
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 11:03 , Processed in 0.070293 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表