穿越河流：理解面向语言模型训练的无时间表方法的益处

于红博 · 发表于 2025-11-2 20:05:29

摘要: 随着模型和数据集规模的快速扩大，传统的预训练策略，如固定计算预算的余弦学习率调度，对于大规模训练变得越来越不足。最近的替代方案，包括热身稳定衰减（WSD）调度和权重平均，提供了更大的灵活性。然而，WSD依赖于明确的衰减阶段来跟踪进展，而权重平均则以额外的内存成本解决了这一限制。为了寻找更加基于原则和可扩展的替代方案，我们重新审视了《无调度》（SF）方法[Defazio等人，2024年]，该方法在各种设置中表现出强大的实证性能。我们展示了SF-AdamW有效地在损失景观的"河流"结构中导航，无需衰减阶段或辅助平均，使其特别适用于持续扩展的训练工作量。为了理解这种行为，我们进行了对SF动态的理论和实证分析，揭示了它在没有内存开销的情况下隐含地执行权重平均。在这一分析的指导下，我们提出了SF的一个改进变体，提高了对动量的稳健性，并在大批量大小下表现更好，解决了原始方法的主要限制。总的来说，这些结果将SF确立为语言模型训练的一种实用、可扩展且理论基础的方法。

更新时间: 2025-10-30 08:39:14

领域: cs.LG,cs.AI,math.OC,stat.ML

下载: http://arxiv.org/abs/2507.09846v3

		自动登录	找回密码
密码			立即注册

穿越河流：理解面向语言模型训练的无时间表方法的益处

浏览过的版块