压缩以留下深刻印象：利用100个样本上的单一梯度步骤进行高效LLM适应

于红博 · 发表于 3 天前

摘要: 最近，Sharma等人提出了一种称为Layer-SElective-Rank reduction（LASER）的方法，该方法表明修剪精心选择的LLM权重矩阵的高阶分量可以提高下游准确性--而无需任何基于梯度的微调。然而，LASER的详尽的、每个矩阵搜索（每个都需要完整的数据集正向传递）使其不适用于快速部署。我们证明可以消除这种开销，并发现：（i）只需要检查一小部分精心选择的矩阵--消除逐层扫描，（ii）每个矩阵的奇异值的梯度可以确定哪些矩阵值得减少，（iii）通过允许矩阵行围绕多个子空间聚类并分解每个簇，进一步减少对原始训练数据的过拟合，并将准确性提高最多24.6个百分点，最后，(iv)我们发现，仅在100个样本上进行评估而不是整个训练数据--既用于计算指示梯度又用于测量最终准确性--足以进一步减少搜索时间；我们解释这是因为对下游任务的适应主要取决于提示风格，而不是数据集大小。因此，我们展示了将这些发现结合起来可以为下游任务提供快速和稳健的自适应算法。总的来说，通过对100个示例进行单一梯度步骤并快速扫描顶级候选层和因子分解技术，我们可以将LLM调整到新数据集--完全无需微调。

更新时间: 2025-10-23 17:58:01

领域: cs.LG,cs.AI,cs.CL,cs.CV

下载: http://arxiv.org/abs/2510.20800v1

		自动登录	找回密码
密码			立即注册