找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 12|回复: 0

关于任务向量和梯度

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-10-9 16:35:15 | 显示全部楼层 |阅读模式
摘要: 任务算术已经成为一种简单但强大的技术,用于模型合并,使多个微调模型合并为一个。尽管在经验上取得了成功,但为什么以及何时有效的清晰的理论解释尚未提供。本文通过建立任务向量和任务损失的梯度之间的联系,为任务算术提供了严格的理论基础。我们展示,在标准梯度下降的情况下,从一次微调生成的任务向量恰好等同于损失的负梯度,乘以学习率。对于实际的多次迭代设置,我们证明了这种等价性近似成立,具有一个明确界定的二阶误差项,适用于前馈网络。我们在七个视觉基准上的实证分析支持了我们的理论,表明第一次迭代的梯度在微调轨迹中在范数和方向上占主导地位。一个关键的含义是,将仅进行了单次迭代微调的模型合并通常会产生与合并完全收敛的模型相媲美的性能。这些发现重新构想了任务算术作为一种近似多任务学习的形式,为其有效性提供了明确的理由,并突出了早期训练动态在模型合并中的关键作用。
更新时间: 2025-10-08 16:00:50
领域: cs.LG,cs.AI

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:16 , Processed in 0.068321 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表