|
摘要: 多义性在语言模型中普遍存在,并且仍然是解释和模型行为控制的主要挑战。利用稀疏自动编码器(SAEs),我们将两个小型模型(Pythia-70M和GPT-2-Small)的多义性拓扑映射到Sae特征对,这些特征对在语义上无关,但在模型内部却表现出干扰。我们在四个位置(提示、标记、特征、神经元)进行干预,并测量引起的下一个标记预测分布的变化,揭示了揭示了这些模型中的系统性弱点。关键是,从两个小型模型共享的反直觉干扰模式中提炼出的干预能够可靠地转移到更大的指令调整模型(Llama-3.1-8B/70B-Instruct和Gemma-2-9B-Instruct),产生可预测的行为转变,而无需访问模型内部。这些发现挑战了多义性纯粹是随机的观点,而是表明干扰结构跨尺度和族群泛化。这种泛化表明了内部表征的收敛、高阶组织,它仅在一定程度上与直觉对齐,并由潜在规律结构化,为黑盒控制和对人类和人工认知的理论洞察提供了新的可能性。 更新时间: 2025-09-29 16:04:15 领域: cs.AI,cs.CL,cs.CR
|