|
摘要: 尽管近年来在发展语言模型方面取得了进展,但关于这些模型如何持续学习/记忆、自我改进和找到有效解决方案仍存在根本性挑战和未解答的问题。在本文中,我们提出了一种新的学习范式,称为嵌套学习(NL),它以一组嵌套、多层次和/或并行优化问题形式统一表示机器学习模型,每个问题都有自己的上下文流。通过NL的视角,现有的深度学习方法通过压缩自己的上下文流来从数据中学习,并且在大型模型中自然地出现了上下文学习。NL提出了一种哲学,设计更具表现力的学习算法,具有更多层次,从而实现更高阶的上下文学习,并潜在地释放有效的持续学习能力。我们通过提出三个核心贡献来倡导NL:(1)表现力优化器:我们展示了已知的基于梯度的优化器,如Adam、带动量的SGD等,实际上是旨在通过梯度下降压缩梯度信息的关联记忆模块。基于这一洞察力,我们提出了其他更具表现力的优化器,具有深度记忆和/或更强大的学习规则;(2)自修改学习模块:利用NL对学习算法的洞察,我们提出了一个序列模型,通过学习自己的更新算法来学习如何修改自己;和(3)连续记忆系统:我们提出了一个新的记忆系统的形式化,泛化了传统的长期/短期记忆观点。将我们的自修改序列模型与连续记忆系统相结合,我们提出了一个持续学习模块,称为Hope,在语言建模、知识整合和少样本泛化任务、持续学习和长上下文推理任务中展示了有希望的结果。 更新时间: 2025-12-31 07:59:43 领域: cs.LG,cs.AI
|