涅槃：一种具有任务感知记忆机制的专业泛化模型

于红博 · 发表于 2025-11-2 22:23:03

摘要: 专业通用模型（SGM）旨在在保持广泛能力的同时，在目标领域达到专家级性能。然而，传统的LLM结构，包括Transformer、Linear Attention和混合模型，并未采用由任务信息引导的专门化记忆机制。本文介绍了Nirvana，这是一个具有专门化记忆机制、线性时间复杂度和测试时任务信息提取功能的SGM。此外，我们提出了Task-Aware Memory Trigger（$\textit{Trigger}$），它可以根据当前任务的要求灵活调整记忆机制。在Trigger中，每个传入的样本被视为一个自监督微调任务，使Nirvana能够根据领域变化动态调整其与任务相关的参数。我们还设计了Specialized Memory Updater（$\textit{Updater}$），它可以根据Trigger指导动态记忆上下文。我们在一般语言任务和专业医学任务上进行了实验。在各种自然语言建模基准测试中，Nirvana相对于现有的LLM结构取得了竞争性或更优秀的结果。为了证明Trigger在专业任务上的有效性，我们在具有挑战性的医学任务上测试了Nirvana的性能，即磁共振成像（MRI）。我们在配对的电磁信号和MRI图像上对冻结的Nirvana骨干进行后训练。尽管Nirvana骨干被冻结，Trigger引导模型适应MRI领域，并随着任务相关参数的变化。相较于传统MRI模型以及具有传统LLM骨干的模型，Nirvana实现了更高质量的MRI重建，并且还可以相应地生成准确的初步临床报告。

更新时间: 2025-10-30 02:41:54

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2510.26083v1

		自动登录	找回密码
密码			立即注册

涅槃：一种具有任务感知记忆机制的专业泛化模型

浏览过的版块