找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 36|回复: 0

Per-sample Adam在可分离数据上的隐性偏差:偏离完全批量制度

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 20:00:19 | 显示全部楼层 |阅读模式
摘要: Adam [Kingma和Ba,2015] 是深度学习中事实上的优化器,然而其理论理解仍然有限。先前的分析表明Adam偏好与$\ell_\infty$-几何有关的解决方案,但这些结果局限于完整批处理模式。在这项工作中,我们研究了增量Adam(每步使用一个样本)在线性可分数据上进行逻辑回归的隐含偏差,并且我们表明其偏差可能偏离完整批处理行为。为了说明这一点,我们构建了一类结构化数据集,其中增量Adam可证明收敛到$\ell_2$-最大间隔分类器,与完整批处理Adam的$\ell_\infty$-最大间隔偏差相反。对于一般数据集,我们开发了一个代理算法,捕捉增量Adam在$\beta_2 \to 1$时的极限行为,并通过一个依赖于数据的双固定点公式表征其收敛方向。最后,我们证明,与Adam不同,Signum [Bernstein等人,2018] 通过将$\beta$足够靠近1,对于任何批处理大小都会收敛到$\ell_\infty$-最大间隔分类器。总的来说,我们的结果突显了Adam的隐含偏差关键取决于批处理方案和数据集,而Signum保持不变。
更新时间: 2025-10-30 09:41:33
领域: cs.LG,cs.AI,math.OC,stat.ML

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 17:31 , Processed in 0.079232 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表