|
摘要: Adam [Kingma和Ba,2015] 是深度学习中事实上的优化器,然而其理论理解仍然有限。先前的分析表明Adam偏好与$\ell_\infty$-几何有关的解决方案,但这些结果局限于完整批处理模式。在这项工作中,我们研究了增量Adam(每步使用一个样本)在线性可分数据上进行逻辑回归的隐含偏差,并且我们表明其偏差可能偏离完整批处理行为。为了说明这一点,我们构建了一类结构化数据集,其中增量Adam可证明收敛到$\ell_2$-最大间隔分类器,与完整批处理Adam的$\ell_\infty$-最大间隔偏差相反。对于一般数据集,我们开发了一个代理算法,捕捉增量Adam在$\beta_2 \to 1$时的极限行为,并通过一个依赖于数据的双固定点公式表征其收敛方向。最后,我们证明,与Adam不同,Signum [Bernstein等人,2018] 通过将$\beta$足够靠近1,对于任何批处理大小都会收敛到$\ell_\infty$-最大间隔分类器。总的来说,我们的结果突显了Adam的隐含偏差关键取决于批处理方案和数据集,而Signum保持不变。 更新时间: 2025-10-30 09:41:33 领域: cs.LG,cs.AI,math.OC,stat.ML
|