Nested Learning: 深度学习架构的幻觉

于红博 · 发表于 2026-1-4 23:12:36

摘要: 尽管近年来在发展语言模型方面取得了进展，但关于这些模型如何持续学习/记忆、自我改进和找到有效解决方案仍存在根本性挑战和未解答的问题。在本文中，我们提出了一种新的学习范式，称为嵌套学习（NL），它以一组嵌套、多层次和/或并行优化问题形式统一表示机器学习模型，每个问题都有自己的上下文流。通过NL的视角，现有的深度学习方法通过压缩自己的上下文流来从数据中学习，并且在大型模型中自然地出现了上下文学习。NL提出了一种哲学，设计更具表现力的学习算法，具有更多层次，从而实现更高阶的上下文学习，并潜在地释放有效的持续学习能力。我们通过提出三个核心贡献来倡导NL：（1）表现力优化器：我们展示了已知的基于梯度的优化器，如Adam、带动量的SGD等，实际上是旨在通过梯度下降压缩梯度信息的关联记忆模块。基于这一洞察力，我们提出了其他更具表现力的优化器，具有深度记忆和/或更强大的学习规则；（2）自修改学习模块：利用NL对学习算法的洞察，我们提出了一个序列模型，通过学习自己的更新算法来学习如何修改自己；和（3）连续记忆系统：我们提出了一个新的记忆系统的形式化，泛化了传统的长期/短期记忆观点。将我们的自修改序列模型与连续记忆系统相结合，我们提出了一个持续学习模块，称为Hope，在语言建模、知识整合和少样本泛化任务、持续学习和长上下文推理任务中展示了有希望的结果。

更新时间: 2025-12-31 07:59:43

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2512.24695v1

		自动登录	找回密码
密码			立即注册