找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 40|回复: 0

通过FP16击败训练-推断不匹配

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:21:16 | 显示全部楼层 |阅读模式
摘要: 强化学习(RL)对大型语言模型(LLMs)进行微调往往由于训练和推理策略之间的数值不匹配而出现不稳定性。尽管先前的工作已经尝试通过算法修正或工程对齐来缓解这个问题,但我们发现其根本原因在于浮点精度本身。尽管BF16被广泛采用,但由于其大的动态范围引入了大的舍入误差,破坏了训练和推理之间的一致性。在这项工作中,我们展示了简单地回到FP16有效消除了这种不匹配。这种改变简单易行,在现代框架中完全支持,只需几行代码修改,无需对模型架构或学习算法进行修改。我们的结果表明,使用FP16可以在各种任务、算法和框架中实现更稳定的优化、更快的收敛速度和更强的性能。我们希望这些发现能够激发人们对RL微调中精度权衡的更广泛重新考虑。
更新时间: 2025-10-30 17:58:11
领域: cs.LG,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-13 01:14 , Processed in 0.086238 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表