找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 2|回复: 0

动态大概念模型:在自适应语义空间中的潜在推理

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2026-1-4 23:20:00 | 显示全部楼层 |阅读模式
摘要: 大型语言模型(LLMs)对所有标记应用统一计算,尽管语言展现出高度非均匀的信息密度。这种标记均匀制度在局部可预测跨度上浪费容量,同时在语义上关键的转换上分配计算不足。我们提出了$\textbf{动态大概念模型(DLCM)}$,这是一个层次化的语言建模框架,它从潜在表示中学习语义边界,并将计算从标记转移到一个压缩的概念空间,其中推理更高效。DLCM能够端到端地发现可变长度的概念,而不依赖于预定义的语言单位。层次压缩从根本上改变了扩展行为。我们引入了第一个$\textbf{压缩感知的扩展定律}$,该定律将标记级容量、概念级推理容量和压缩比分离开来,从而在固定的FLOPs下实现原则性的计算分配。为了稳定训练这种异构架构,我们进一步开发了一种$\textbf{解耦的$μ$P参数化}$,支持在宽度和压缩制度之间进行零次超参数传递。在实际设置中($R=4$,对应于每个概念平均四个标记),DLCM将大约三分之一的推理计算重新分配到一个容量更高的推理主干中,实现了在匹配推理FLOPs下12个零次基准测试中的$\textbf{+2.69$\%$平均改进}$。
更新时间: 2025-12-31 04:19:33
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:01 , Processed in 0.085231 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表