叠加产生稳健的神经缩放效应

于红博 · 发表于 3 天前

而，神经比例律的起源，即损失随模型大小呈幂律下降的现象，仍然不清楚。我们提出，表示叠加，即LLMs表示的特征多于其维度，可能是损失和神经比例律的关键因素。基于 Anthropics 的玩具模型，我们使用权重衰减来控制叠加程度，从而系统地研究损失随模型大小的变化。当叠加很弱时，损失仅在数据特征频率呈幂律分布时才遵循幂律。相反，在叠加很强时，由于表示向量之间的几何重叠，损失在广泛的频率分布类别中通常与模型维度成反比例关系。我们确认，开源的LLMs在强叠加范围内运行，并且损失随模型维度的倒数缩放，而且 Chinchilla 比例律也与此行为一致。我们的结果确定了表示叠加作为神经比例律的中心驱动因素，为诸如何时可以改进神经比例律以及何时它们将崩溃等问题提供了见解。

更新时间: 2025-10-23 16:06:53

领域: cs.LG,cs.AI,cs.CL

下载: http://arxiv.org/abs/2505.10465v3

		自动登录	找回密码
密码			立即注册

叠加产生稳健的神经缩放效应

浏览过的版块