找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

Nested Learning: 深度学习架构的幻觉

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:12:36 | 显示全部楼层 |阅读模式
摘要: 尽管近年来在发展语言模型方面取得了进展,但关于这些模型如何持续学习/记忆、自我改进和找到有效解决方案仍存在根本性挑战和未解答的问题。在本文中,我们提出了一种新的学习范式,称为嵌套学习(NL),它以一组嵌套、多层次和/或并行优化问题形式统一表示机器学习模型,每个问题都有自己的上下文流。通过NL的视角,现有的深度学习方法通过压缩自己的上下文流来从数据中学习,并且在大型模型中自然地出现了上下文学习。NL提出了一种哲学,设计更具表现力的学习算法,具有更多层次,从而实现更高阶的上下文学习,并潜在地释放有效的持续学习能力。我们通过提出三个核心贡献来倡导NL:(1)表现力优化器:我们展示了已知的基于梯度的优化器,如Adam、带动量的SGD等,实际上是旨在通过梯度下降压缩梯度信息的关联记忆模块。基于这一洞察力,我们提出了其他更具表现力的优化器,具有深度记忆和/或更强大的学习规则;(2)自修改学习模块:利用NL对学习算法的洞察,我们提出了一个序列模型,通过学习自己的更新算法来学习如何修改自己;和(3)连续记忆系统:我们提出了一个新的记忆系统的形式化,泛化了传统的长期/短期记忆观点。将我们的自修改序列模型与连续记忆系统相结合,我们提出了一个持续学习模块,称为Hope,在语言建模、知识整合和少样本泛化任务、持续学习和长上下文推理任务中展示了有希望的结果。
更新时间: 2025-12-31 07:59:43
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 15:43 , Processed in 0.073899 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表