找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 42|回复: 0

穿越河流:理解面向语言模型训练的无时间表方法的益处

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:05:29 | 显示全部楼层 |阅读模式
摘要: 随着模型和数据集规模的快速扩大,传统的预训练策略,如固定计算预算的余弦学习率调度,对于大规模训练变得越来越不足。最近的替代方案,包括热身稳定衰减(WSD)调度和权重平均,提供了更大的灵活性。然而,WSD依赖于明确的衰减阶段来跟踪进展,而权重平均则以额外的内存成本解决了这一限制。为了寻找更加基于原则和可扩展的替代方案,我们重新审视了《无调度》(SF)方法[Defazio等人,2024年],该方法在各种设置中表现出强大的实证性能。我们展示了SF-AdamW有效地在损失景观的"河流"结构中导航,无需衰减阶段或辅助平均,使其特别适用于持续扩展的训练工作量。为了理解这种行为,我们进行了对SF动态的理论和实证分析,揭示了它在没有内存开销的情况下隐含地执行权重平均。在这一分析的指导下,我们提出了SF的一个改进变体,提高了对动量的稳健性,并在大批量大小下表现更好,解决了原始方法的主要限制。总的来说,这些结果将SF确立为语言模型训练的一种实用、可扩展且理论基础的方法。
更新时间: 2025-10-30 08:39:14
领域: cs.LG,cs.AI,math.OC,stat.ML

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:41 , Processed in 0.090391 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表