揭示语言模型中操纵数字的机制

于红博 · 发表于 2025-11-2 20:03:13

摘要: 最近的研究表明，不同的大型语言模型（LLMs）会收敛到相似且准确的数字输入嵌入表示。这些发现与已记录的LLMs在处理数字信息时产生错误输出的倾向相冲突。在这项工作中，我们旨在通过探索语言模型如何操作数字并量化这些机制的准确性下限来解释这种冲突。我们发现，尽管存在错误，不同的语言模型学习到的数字表示是系统化的、高度准确的，并且在它们的隐藏状态和输入上下文类型中都是普遍的。这使我们能够为每个LLM创建通用的探针，并将信息跟踪到特定的层，包括输出错误的原因。我们的结果为我们如何预训练的LLMs操作数字提供了基本的理解，并概述了更准确的探测技术在改进LLMs架构中的潜力。

更新时间: 2025-10-30 09:08:50

领域: cs.CL,cs.AI,cs.LG,cs.NE

下载: http://arxiv.org/abs/2510.26285v1

		自动登录	找回密码
密码			立即注册