找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 19|回复: 0

人工海马网络用于高效的长上下文建模

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:29:28 | 显示全部楼层 |阅读模式
摘要: 长序列建模面临着一个基本的折衷,即在类似RNN的模型中压缩固定大小内存的效率与基于注意力的Transformer中无损增长内存的保真度之间的折衷。受认知科学中的多存储模型的启发,我们引入了一种人工神经网络的记忆框架。我们的方法将Transformer的KV缓存维持为无损短期内存的滑动窗口,同时一个可学习的模块,称为人工海马网络(AHN),循环地将窗口外的信息压缩成固定大小的紧凑长期记忆。为了验证这一框架,我们使用现代RNN-like架构实例化AHNs,包括Mamba2、DeltaNet和Gated DeltaNet。对长上下文基准LV-Eval和InfiniteBench的大量实验表明,AHN增强模型始终优于滑动窗口基线,并且实现了与全注意力模型相媲美甚至更优的性能,同时大幅减少了计算和内存需求。例如,用AHNs增强Qwen2.5-3B-Instruct将推理FLOPs减少了40.5%,内存缓存减少了74.0%,同时将其在LV-Eval(128k序列长度)上的平均分数从4.41提高到5.88。代码可在以下链接找到:https://github.com/ByteDance-Seed/AHN
更新时间: 2025-10-08 17:59:55
领域: cs.CL,cs.AI,cs.LG

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 08:23 , Processed in 0.073218 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表