找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 20|回复: 0

噪音中的信号:多义干扰的传递和跨模型影响的预测

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:32:27 | 显示全部楼层 |阅读模式
摘要: 多义性在语言模型中普遍存在,并且仍然是解释和模型行为控制的主要挑战。利用稀疏自动编码器(SAEs),我们将两个小型模型(Pythia-70M和GPT-2-Small)的多义性拓扑映射到Sae特征对,这些特征对在语义上无关,但在模型内部却表现出干扰。我们在四个位置(提示、标记、特征、神经元)进行干预,并测量引起的下一个标记预测分布的变化,揭示了揭示了这些模型中的系统性弱点。关键是,从两个小型模型共享的反直觉干扰模式中提炼出的干预能够可靠地转移到更大的指令调整模型(Llama-3.1-8B/70B-Instruct和Gemma-2-9B-Instruct),产生可预测的行为转变,而无需访问模型内部。这些发现挑战了多义性纯粹是随机的观点,而是表明干扰结构跨尺度和族群泛化。这种泛化表明了内部表征的收敛、高阶组织,它仅在一定程度上与直觉对齐,并由潜在规律结构化,为黑盒控制和对人类和人工认知的理论洞察提供了新的可能性。
更新时间: 2025-09-29 16:04:15
领域: cs.AI,cs.CL,cs.CR

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 15:56 , Processed in 0.076745 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表