|
摘要: 强化学习(RL)算法对每个问题进行多次n>1个解决方案尝试,并独立奖励它们。这优化了pass@1性能,并以牺牲样本集的多样性和集体效用为代价,优先考虑孤立样本的强度。这种方法未充分利用采样容量,限制了对更难问题的探索和最终改进。为此,我们提出了Pass-at-k策略优化(PKPO),这是对最终奖励的转换,导致直接优化pass@k性能,从而优化最大化奖励的样本集。我们的贡献在于推导出新颖的pass@k和其梯度的低方差无偏估计方法,适用于二元和连续奖励设置。我们展示了使用我们的估计方法进行优化,简化为标准RL,其奖励已经通过稳定和有效的转换函数进行联合转换。 虽然以往的研究仅限于k=n,我们是第一个能够使任意k <= n的pass@k得到稳健优化的方法。此外,我们的方法不是以牺牲pass@1性能来换取pass@k增益,而是允许在训练过程中逐渐调整k,优化两种指标,并通常在显著提高pass@k的同时取得强大的pass@1数字。 我们在玩具实验中验证了奖励转换的效果,这揭示了我们公式的降低方差的特性。我们还使用开源LLM、GEMMA-2进行了真实世界示例。我们发现我们的转换有效地优化了目标k。此外,更高的k值可以解决更多和更难的问题,而逐渐调整k可以提高pass@1和pass@k。关键是,在传统pass@1优化停滞不前的挑战性任务集中,我们的pass@k方法解锁了学习,可能是因为通过优先考虑样本的联合效用而不是个体样本的效用来实现更好的探索。 更新时间: 2025-10-30 03:40:48 领域: cs.LG,cs.AI,cs.CL,stat.ML
|