动态大概念模型：在自适应语义空间中的潜在推理

于红博 · 发表于 2026-1-4 23:20:00

摘要: 大型语言模型（LLMs）对所有标记应用统一计算，尽管语言展现出高度非均匀的信息密度。这种标记均匀制度在局部可预测跨度上浪费容量，同时在语义上关键的转换上分配计算不足。我们提出了$\textbf{动态大概念模型（DLCM）}$，这是一个层次化的语言建模框架，它从潜在表示中学习语义边界，并将计算从标记转移到一个压缩的概念空间，其中推理更高效。DLCM能够端到端地发现可变长度的概念，而不依赖于预定义的语言单位。层次压缩从根本上改变了扩展行为。我们引入了第一个$\textbf{压缩感知的扩展定律}$，该定律将标记级容量、概念级推理容量和压缩比分离开来，从而在固定的FLOPs下实现原则性的计算分配。为了稳定训练这种异构架构，我们进一步开发了一种$\textbf{解耦的$μ$P参数化}$，支持在宽度和压缩制度之间进行零次超参数传递。在实际设置中（$R=4$，对应于每个概念平均四个标记），DLCM将大约三分之一的推理计算重新分配到一个容量更高的推理主干中，实现了在匹配推理FLOPs下12个零次基准测试中的$\textbf{+2.69$\%$平均改进}$。

更新时间: 2025-12-31 04:19:33

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2512.24617v1

		自动登录	找回密码
密码			立即注册

动态大概念模型：在自适应语义空间中的潜在推理

浏览过的版块