找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 29|回复: 0

StateX:通过后训练状态扩展增强RNN召回率

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:50:08 | 显示全部楼层 |阅读模式
摘要: 尽管基于Transformer的模型展示了出色的语言建模性能,但其高复杂性导致在处理长篇文本时成本较高。相比之下,循环神经网络(RNNs)如线性注意力和状态空间模型因其每个标记的复杂度恒定而变得受欢迎。然而,这些循环模型在需要准确回忆长篇文本中的上下文信息的任务中表现不佳,因为所有上下文信息被压缩到一个固定大小的循环状态中。之前的研究表明,回忆能力与循环状态大小呈正相关,然而直接训练具有较大循环状态的RNNs会导致高训练成本。在本文中,我们引入了StateX,一个用于通过后训练有效扩展预训练RNNs状态的训练流程。针对两种流行的RNNs类别,线性注意力和状态空间模型,我们设计了后训练的架构修改,以扩大状态大小而不增加模型参数或只有微不足道的增加。对拥有高达1.3B参数的模型的实验证明,StateX有效地增强了RNNs的回忆和上下文学习能力,而不会产生高昂的后训练成本或损害其他功能。
更新时间: 2025-09-26 17:55:22
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.075221 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表