找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 25|回复: 0

语言模型的变分推理

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:48:46 | 显示全部楼层 |阅读模式
摘要: 我们介绍了一种用于语言模型的变分推理框架,将思考痕迹视为潜变量,并通过变分推理对其进行优化。从证据下界(ELBO)开始,我们将其扩展为一个用于更紧密边界的多痕迹目标,并提出了一种前向KL的表述,以稳定变分后验的训练。我们进一步表明,拒绝采样微调和二进制奖励RL,包括GRPO,可以被解释为本地前向KL目标,其中通过模型准确性的隐含加权自然而然地出现在推导中,并揭示了以前未被注意到的对于更容易问题的偏见。我们在Qwen 2.5和Qwen 3模型系列上对我们的方法进行了实证验证,涵盖了各种推理任务。总的来说,我们的工作提供了一种统一变分推理与RL风格方法的原则性概率视角,并为改进语言模型的推理能力提供了稳定的目标。我们的代码可在https://github.com/sail-sg/variational-reasoning上找到。
更新时间: 2025-09-26 17:58:10
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.073063 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表