找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 21|回复: 0

通过离线奖励评估和策略搜索增强生成式自动出价

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:39:04 | 显示全部楼层 |阅读模式
摘要: 自动投标是广告商改善广告表现的关键工具。最近的进展表明,从离线数据中学习条件生成规划器的人工智能生成竞价(AIGB)相比于典型的离线强化学习(RL)自动投标方法,表现更优越。然而,现有的AIGB方法仍然面临性能瓶颈,因为它们固有的无法探索超出静态离线数据集的能力。为了解决这个问题,我们提出了{AIGB-Pearl}(通过RL进行评估者的规划),这是一种集成生成规划和策略优化的新方法。AIGB-Pearl的核心在于构建一个轨迹评估器来评分生成质量,并设计一个经过证明的KL-Lipschitz约束评分最大化方案,以确保在离线数据集之外进行安全和高效的探索。进一步设计了一个实用算法,采用同步耦合技术,以确保所提出方案所需的模型规则性。对模拟和真实广告系统进行的大量实验表明了我们方法的最先进性能。
更新时间: 2025-10-08 14:06:32
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.083401 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表