|
摘要: 深度序列模型据说主要以关联记忆的形式存储原子事实:即对共同出现的实体进行蛮力查找。我们确定了一种截然不同的原子事实存储形式,我们称之为几何记忆。在这里,模型合成了编码所有实体之间新颖全局关系的嵌入,包括训练中不共同出现的实体。这种存储方式很强大:例如,我们展示了它如何将涉及$\ell$次合成的困难推理任务转化为易学习的$1$步导航任务。 通过这一现象,我们提取了神经嵌入几何学的基本方面,这些方面很难解释。我们认为,这种几何学的兴起,与查找本地关联相比,不能简单地归因于典型的监督、架构或优化压力。令人费解的是,即使几何形式比蛮力查找更复杂,几何形式也会被学习。 然后,通过分析与Node2Vec的联系,我们展示了这种几何形式源于一种谱偏差,与流行的理论相反,尽管没有各种压力,它确实自然而然地产生。这一分析还指出了从业者可以将Transformer记忆更强烈地几何化的可见空间。我们希望参数记忆的几何视角能够鼓励重新审视引导研究人员在知识获取、容量、发现和遗忘等领域的默认直觉。 更新时间: 2025-12-31 18:57:25 领域: cs.LG,cs.AI,cs.CL,stat.ML
|