找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

叠加产生稳健的神经缩放效应

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
而,神经比例律的起源,即损失随模型大小呈幂律下降的现象,仍然不清楚。我们提出,表示叠加,即LLMs表示的特征多于其维度,可能是损失和神经比例律的关键因素。基于 Anthropics 的玩具模型,我们使用权重衰减来控制叠加程度,从而系统地研究损失随模型大小的变化。当叠加很弱时,损失仅在数据特征频率呈幂律分布时才遵循幂律。相反,在叠加很强时,由于表示向量之间的几何重叠,损失在广泛的频率分布类别中通常与模型维度成反比例关系。我们确认,开源的LLMs在强叠加范围内运行,并且损失随模型维度的倒数缩放,而且 Chinchilla 比例律也与此行为一致。我们的结果确定了表示叠加作为神经比例律的中心驱动因素,为诸如何时可以改进神经比例律以及何时它们将崩溃等问题提供了见解。
更新时间: 2025-10-23 16:06:53
领域: cs.LG,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 03:57 , Processed in 0.071321 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表