|
摘要: 随着模型和数据集规模的快速扩大,传统的预训练策略,如固定计算预算的余弦学习率调度,对于大规模训练变得越来越不足。最近的替代方案,包括热身稳定衰减(WSD)调度和权重平均,提供了更大的灵活性。然而,WSD依赖于明确的衰减阶段来跟踪进展,而权重平均则以额外的内存成本解决了这一限制。为了寻找更加基于原则和可扩展的替代方案,我们重新审视了《无调度》(SF)方法[Defazio等人,2024年],该方法在各种设置中表现出强大的实证性能。我们展示了SF-AdamW有效地在损失景观的"河流"结构中导航,无需衰减阶段或辅助平均,使其特别适用于持续扩展的训练工作量。为了理解这种行为,我们进行了对SF动态的理论和实证分析,揭示了它在没有内存开销的情况下隐含地执行权重平均。在这一分析的指导下,我们提出了SF的一个改进变体,提高了对动量的稳健性,并在大批量大小下表现更好,解决了原始方法的主要限制。总的来说,这些结果将SF确立为语言模型训练的一种实用、可扩展且理论基础的方法。 更新时间: 2025-10-30 08:39:14 领域: cs.LG,cs.AI,math.OC,stat.ML
|