找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 40|回复: 0

大型语言模型中关系解码线性算子的结构

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 18:54:00 | 显示全部楼层 |阅读模式
摘要: 这篇论文研究了Hernandez等人[2023]引入的线性算子的结构,这些算子在变压器语言模型中解码特定的关系事实。我们将他们的单关系发现扩展到一组关系,并系统地绘制它们的组织结构。我们展示了这种关系解码器的集合可以通过简单的三阶张量网络高度压缩,而在解码准确性上并没有显著损失。为了解释这种令人惊讶的冗余性,我们开发了一个交叉评估协议,在此协议中,我们将每个线性解码算子应用于其他每个关系的主语。我们的结果显示,这些线性映射并不编码不同的关系,而是提取重复出现的、粗粒度的语义属性(例如,首都的国家和食物的国家都在X的国家属性中)。这种基于属性的结构阐明了这些算子的可压缩性,也突出了它们只能泛化到语义上接近的新关系的原因。因此,我们的发现将变压器语言模型中的线性关系解码解释为主要基于属性,而不是关系特定的。
更新时间: 2025-10-30 14:36:09
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 23:51 , Processed in 0.070962 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表