找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 36|回复: 0

涅槃:一种具有任务感知记忆机制的专业泛化模型

[复制链接]

622

主题

0

回帖

1895

积分

金牌会员

积分
1895
发表于 2025-11-2 22:23:03 | 显示全部楼层 |阅读模式
摘要: 专业通用模型(SGM)旨在在保持广泛能力的同时,在目标领域达到专家级性能。然而,传统的LLM结构,包括Transformer、Linear Attention和混合模型,并未采用由任务信息引导的专门化记忆机制。本文介绍了Nirvana,这是一个具有专门化记忆机制、线性时间复杂度和测试时任务信息提取功能的SGM。此外,我们提出了Task-Aware Memory Trigger($\textit{Trigger}$),它可以根据当前任务的要求灵活调整记忆机制。在Trigger中,每个传入的样本被视为一个自监督微调任务,使Nirvana能够根据领域变化动态调整其与任务相关的参数。我们还设计了Specialized Memory Updater($\textit{Updater}$),它可以根据Trigger指导动态记忆上下文。我们在一般语言任务和专业医学任务上进行了实验。在各种自然语言建模基准测试中,Nirvana相对于现有的LLM结构取得了竞争性或更优秀的结果。为了证明Trigger在专业任务上的有效性,我们在具有挑战性的医学任务上测试了Nirvana的性能,即磁共振成像(MRI)。我们在配对的电磁信号和MRI图像上对冻结的Nirvana骨干进行后训练。尽管Nirvana骨干被冻结,Trigger引导模型适应MRI领域,并随着任务相关参数的变化。相较于传统MRI模型以及具有传统LLM骨干的模型,Nirvana实现了更高质量的MRI重建,并且还可以相应地生成准确的初步临床报告。
更新时间: 2025-10-30 02:41:54
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2026-1-12 16:03 , Processed in 0.077361 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表