语言模型可以从口头反馈中学习，无需标量奖励

于红博 · 发表于 2025-9-30 19:48:29

摘要: LLMs经常通过来自人类或AI反馈的RL进行训练，然而这种方法通常将细致的反馈压缩为标量奖励，丢弃了其中的许多丰富信息并引起了规模不平衡问题。我们提出将口头反馈视为一种条件信号。受文本到图像生成中的语言先验启发，该先验允许从未见过的提示中生成新颖的输出，我们引入了反馈条件策略（FCP）。FCP直接从响应-反馈对中学习，通过最大似然训练在离线数据上近似反馈条件后验。我们进一步开发了一个在线自举阶段，其中策略在积极条件下生成，并接收新鲜反馈以完善自身。这将反馈驱动学习重新构建为条件生成而不是奖励优化，为LLMs直接从口头反馈中学习提供了更具表现力的方式。我们的代码可在https://github.com/sail-sg/feedback-conditional-policy上获得。

更新时间: 2025-09-26 17:58:27

领域: cs.CL,cs.AI,cs.LG

下载: http://arxiv.org/abs/2509.22638v1

		自动登录	找回密码
密码			立即注册