找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 31|回复: 0

语言模型可以从口头反馈中学习,无需标量奖励

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:48:29 | 显示全部楼层 |阅读模式
摘要: LLMs经常通过来自人类或AI反馈的RL进行训练,然而这种方法通常将细致的反馈压缩为标量奖励,丢弃了其中的许多丰富信息并引起了规模不平衡问题。我们提出将口头反馈视为一种条件信号。受文本到图像生成中的语言先验启发,该先验允许从未见过的提示中生成新颖的输出,我们引入了反馈条件策略(FCP)。FCP直接从响应-反馈对中学习,通过最大似然训练在离线数据上近似反馈条件后验。我们进一步开发了一个在线自举阶段,其中策略在积极条件下生成,并接收新鲜反馈以完善自身。这将反馈驱动学习重新构建为条件生成而不是奖励优化,为LLMs直接从口头反馈中学习提供了更具表现力的方式。我们的代码可在https://github.com/sail-sg/feedback-conditional-policy上获得。
更新时间: 2025-09-26 17:58:27
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.068669 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表