|
摘要: 专业通用模型(SGM)旨在在保持广泛能力的同时,在目标领域达到专家级性能。然而,传统的LLM结构,包括Transformer、Linear Attention和混合模型,并未采用由任务信息引导的专门化记忆机制。本文介绍了Nirvana,这是一个具有专门化记忆机制、线性时间复杂度和测试时任务信息提取功能的SGM。此外,我们提出了Task-Aware Memory Trigger($\textit{Trigger}$),它可以根据当前任务的要求灵活调整记忆机制。在Trigger中,每个传入的样本被视为一个自监督微调任务,使Nirvana能够根据领域变化动态调整其与任务相关的参数。我们还设计了Specialized Memory Updater($\textit{Updater}$),它可以根据Trigger指导动态记忆上下文。我们在一般语言任务和专业医学任务上进行了实验。在各种自然语言建模基准测试中,Nirvana相对于现有的LLM结构取得了竞争性或更优秀的结果。为了证明Trigger在专业任务上的有效性,我们在具有挑战性的医学任务上测试了Nirvana的性能,即磁共振成像(MRI)。我们在配对的电磁信号和MRI图像上对冻结的Nirvana骨干进行后训练。尽管Nirvana骨干被冻结,Trigger引导模型适应MRI领域,并随着任务相关参数的变化。相较于传统MRI模型以及具有传统LLM骨干的模型,Nirvana实现了更高质量的MRI重建,并且还可以相应地生成准确的初步临床报告。 更新时间: 2025-10-30 02:41:54 领域: cs.LG,cs.AI
|