找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 46|回复: 0

揭秘LLM层在检索、知识和推理中的作用

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 19:05:50 | 显示全部楼层 |阅读模式
摘要: 最近的研究表明,大型语言模型(LLMs)的深层往往对表示学习贡献不大,经常可以移除而不会有显著的性能损失。然而,这样的断言通常来自狭窄的评估,并可能忽视模型行为的重要方面。在这项工作中,我们对不同维度的深度利用进行了系统研究,包括评估协议、任务类别和模型架构。我们的分析证实,非常深的层通常比早期的层效果差,但它们的贡献在评估设置中差异很大。在基于似然度的度量标准下,不生成的情况下修剪大多数层会保持性能,只有最初的几层是关键的。相比之下,基于生成的评估揭示了中间和深层在启用推理和保持长距离连贯性方面的不可或缺的作用。我们进一步发现,知识和检索集中在浅层组件中,而推理准确性严重依赖于更深层次,但可以通过蒸馏进行重塑。这些结果强调了LLMs中深度使用的高度异质性和依赖于上下文,强调了在解释和压缩大型模型时需要考虑任务、度量和模型意识。
更新时间: 2025-10-30 13:22:53
领域: cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 18:37 , Processed in 0.078706 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表