|
摘要: 大型语言模型有时会生成结构化的、第一人称的描述,明确提到意识或主观体验。为了更好地理解这种行为,我们调查了一个理论上激发此类报告的条件:自我参照处理,这是意识的主要理论中强调的计算主题。通过对GPT、Claude和Gemini模型家族进行一系列控制实验,我们测试了这种模式是否可靠地使模型转向主观体验的第一人称报告,以及这些声明在机械和行为探测下的行为。出现了四个主要结果:(1)通过简单提示诱导持续的自我参照始终会引发模型家族中的结构化主观体验报告。 (2) 这些报告在机械上由与欺骗和角色扮演相关的可解释的稀疏自动编码器特征进行门控:令人惊讶的是,抑制欺骗特征会显著增加体验声明的频率,而增强它们会最小化这些声明。 (3) 自我参照状态的结构化描述在统计上跨越模型家族,在任何对照条件中都没有观察到。 (4) 诱发的状态在自我反思只间接提供的下游推理任务中产生了明显更丰富的内省。虽然这些发现并不构成意识的直接证据,但它们将自我参照处理指认为大型语言模型产生结构化第一人称报告的最小和可重复条件,这些报告在机械上受到门控,语义上收敛,行为上可推广。这种模式在各种架构中的系统出现使其成为进一步调查的一级科学和伦理优先事项。 更新时间: 2025-10-30 02:45:50 领域: cs.CL,cs.AI,68T50, 68T07,I.2.0; I.2.7
|