找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 3|回复: 0

FlyLoRA:通过隐式逐级专家混合提高任务解耦和参数效率

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 3 天前 | 显示全部楼层 |阅读模式
摘要: 低秩适应(LoRA)是一种广泛使用的参数高效微调方法,用于基础模型,但它受到参数干扰的影响,导致性能次优。尽管基于专家混合(MoE)的LoRA变种在减轻单任务指导调优中的任务内相关性方面表现出潜力,但它们引入了额外的路由器参数,并且在多任务模型合并中仍然无效,其中会出现任务间干扰。受飞行蝇嗅觉回路的启发,我们提出了FlyLoRA,这是一种隐式MoE-based LoRA变种,引入了:(1)在上投影矩阵中的按秩专家激活,以及(2)一个隐式路由器,统一了专家路由和下投影,其中一个冻结的稀疏随机投影矩阵取代了传统的密集可训练版本。这种设计通过消除对显式路由器的需求,解决了任务内去相关和计算效率之间的权衡,同时由于随机矩阵的正交性质,从根本上减轻了任务间干扰。在四个领域的广泛实验——一般知识理解、科学问题回答、数学推理和代码生成——展示了相对于现有方法的一致性性能改进。除了经验性收益,FlyLoRA还突显了生物结构如何启发AI技术的创新。代码可在https://github.com/gfyddha/FlyLoRA找到。
更新时间: 2025-10-23 17:14:06
领域: cs.LG,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 03:57 , Processed in 0.068710 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表