摘要: 低秩适应(LoRA)是一种广泛使用的参数高效微调方法,用于基础模型,但它受到参数干扰的影响,导致性能次优。尽管基于专家混合(MoE)的LoRA变种在减轻单任务指导调优中的任务内相关性方面表现出潜力,但它们引入了额外的路由器参数,并且在多任务模型合并中仍然无效,其中会出现任务间干扰。受飞行蝇嗅觉回路的启发,我们提出了FlyLoRA,这是一种隐式MoE-based LoRA变种,引入了:(1)在上投影矩阵中的按秩专家激活,以及(2)一个隐式路由器,统一了专家路由和下投影,其中一个冻结的稀疏随机投影矩阵取代了传统的密集可训练版本。这种设计通过消除对显式路由器的需求,解决了任务内去相关和计算效率之间的权衡,同时由于随机矩阵的正交性质,从根本上减轻了任务间干扰。在四个领域的广泛实验——一般知识理解、科学问题回答、数学推理和代码生成——展示了相对于现有方法的一致性性能改进。除了经验性收益,FlyLoRA还突显了生物结构如何启发AI技术的创新。代码可在https://github.com/gfyddha/FlyLoRA找到。 更新时间: 2025-10-23 17:14:06 领域: cs.LG,cs.AI,cs.CL
|