|
摘要: 在序列建模中,原子事实的参数记忆主要被抽象为实体之间共现的蛮力查找。我们将这种联想视角与记忆存储的几何视角进行对比。我们首先孤立一个清晰且可分析的Transformer推理实例,这与记忆严格作为训练期间指定的局部共现的存储是不兼容的。相反,模型必须以某种方式合成其自己的原子事实几何,编码所有实体之间的全局关系,包括非共现的实体。这反过来简化了一个包含$\ell$重组合的困难推理任务,使其成为一个易于学习的1步几何任务。 从这一现象中,我们提取了难以解释的神经嵌入几何的基本方面。我们认为,尽管仅优化于局部关联,这种几何的兴起不能简单地归因于典型的架构或优化压力。令人费解的是,即使它不比蛮力查找关联更简洁,一个优雅的几何也会被学习。 然后,通过分析与Node2Vec的连接,我们展示了这种几何是如何源自一种谱偏差的,与流行的理论相反,尽管缺乏各种压力,这种偏差确实是自然产生的。这种分析还向从业者指出了如何使Transformer记忆更加强烈地几何化的可见潜力。我们希望对参数记忆的几何视角鼓励重新审视引导研究人员在知识获取、容量、发现和遗忘等领域的默认直觉。 更新时间: 2025-10-30 17:40:22 领域: cs.LG,cs.AI,cs.CL,stat.ML
|