摘要: 影响函数为模型训练提供了重要见解,但现有方法存在着巨大的计算成本和有限的泛化能力。特别是,最近的研究提出了使用语言模型计算数据影响的各种指标和算法,但这些方法在大型模型和数据集上缩放效果不佳。这是因为计算需要昂贵的前向和反向传播,需要大量内存存储大型模型,并且影响估计对新数据的泛化能力较差。在本文中,我们探讨了使用小型神经网络(我们称之为InfluenceNetwork)来估计影响值,实现了高达99%的成本降低。我们的评估表明,影响值可以用仅为完整语言模型大小的模型的0.0027%进行估计(我们使用了7B和8B版本)。我们将我们的影响值估计算法(称为NN-CIFT:用于高效指导微调的神经网络)应用于通用指导微调子集选择的下游任务。在我们的研究中,我们包括四种最先进的影响函数,并展示了NN-CIFT和原始影响函数之间在性能上没有妥协,尽管速度大大提升。我们提供了关于NN-CIFT的深入超参数分析。我们的方法的代码可以在这里找到:https://github.com/agarwalishika/NN-CIFT。 更新时间: 2025-10-30 02:56:28 领域: cs.LG,cs.AI,cs.CL
|