通过离线奖励评估和策略搜索增强生成式自动出价

于红博 · 发表于 2025-9-22 19:51:06

摘要: 自动竞标是广告商提升广告表现的必备工具。最近的进展表明，人工智能生成竞价（AIGB）将自动竞标作为一项轨迹生成任务，并在离线数据上训练条件扩散式规划器，相比典型的基于离线强化学习（RL）的自动竞标方法，实现了更优越和稳定的表现。然而，现有的AIGB方法仍然遇到表现瓶颈，因为它们忽视了细粒度生成质量评估以及无法探索超越静态数据集。为了解决这个问题，我们提出了AIGB-Pearl（通过RL进行评估的规划），这是一种集成生成规划和策略优化的新方法。AIGB-Pearl的关键是构建一个非引导式轨迹评估器，分配奖励并引导策略搜索，使规划器能够通过互动迭代地优化其生成质量。此外，为了增强离线设置中轨迹评估器的准确性，我们结合了三项关键技术：（i）基于大型语言模型（LLM）的架构，以提高表征能力，（ii）混合的点对点和对等损失以提高得分学习，以及（iii）自适应集成专家反馈以提高泛化能力。对模拟和真实世界广告系统的大量实验表明了我们方法的最先进表现。

更新时间: 2025-09-19 12:30:26

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2509.15927v1

		自动登录	找回密码
密码			立即注册