找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

使用变压器学习模幂运算

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 模块化指数是数论和密码学的关键,但从机械解释的角度来看,它仍然大部分未被探索。我们训练了一个4层编码器-解码器Transformer模型来执行这个操作,并研究了在训练过程中数值推理的出现。通过利用合理的采样策略、基于PCA的嵌入分析和激活补丁,我们研究了数论性质如何被编码在模型中。我们发现,倒数操作数的训练导致性能大幅提高,同时在相关模数上突然泛化。这些同步的准确度飙升反映了类似于理解的动态,表明模型内部化了共享的算术结构。我们还发现,在最后一层中仅由注意力头组成的子图足以在常规指数运算任务上实现完全性能。这些结果表明,Transformer模型通过专门的计算电路学习了模块化算术,为更具解释性和高效性的神经方法铺平了道路。
更新时间: 2025-10-23 17:33:42
领域: cs.LG,cs.AI,cs.CR

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:42 , Processed in 0.067419 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表