|
摘要: 大型语言模型(LLMs)对所有标记应用统一计算,尽管语言展现出高度非均匀的信息密度。这种标记均匀制度在局部可预测跨度上浪费容量,同时在语义上关键的转换上分配计算不足。我们提出了$\textbf{动态大概念模型(DLCM)}$,这是一个层次化的语言建模框架,它从潜在表示中学习语义边界,并将计算从标记转移到一个压缩的概念空间,其中推理更高效。DLCM能够端到端地发现可变长度的概念,而不依赖于预定义的语言单位。层次压缩从根本上改变了扩展行为。我们引入了第一个$\textbf{压缩感知的扩展定律}$,该定律将标记级容量、概念级推理容量和压缩比分离开来,从而在固定的FLOPs下实现原则性的计算分配。为了稳定训练这种异构架构,我们进一步开发了一种$\textbf{解耦的$μ$P参数化}$,支持在宽度和压缩制度之间进行零次超参数传递。在实际设置中($R=4$,对应于每个概念平均四个标记),DLCM将大约三分之一的推理计算重新分配到一个容量更高的推理主干中,实现了在匹配推理FLOPs下12个零次基准测试中的$\textbf{+2.69$\%$平均改进}$。 更新时间: 2025-12-31 04:19:33 领域: cs.LG,cs.AI
|