|
摘要: Knowledge distillation(KD)是一种有效的模型压缩和模型之间知识传递的方法。然而,它对模型抗击降低在分布之外数据上表现的虚假相关性的鲁棒性的影响尚未得到充分探讨。本研究调查了知识蒸馏对从教师模型到学生模型在自然语言推理(NLI)和图像分类任务上的“去偏见”能力的可转移性的影响。通过大量实验,我们阐述了几个关键发现:(i)总体而言,模型的去偏见能力在蒸馏后受到破坏;(ii)训练一个去偏见模型并不受益于注入教师知识;(iii)尽管模型的总体鲁棒性在蒸馏后可能保持稳定,但在不同类型的偏见之间可能存在显著变化;(iv)我们指出了导致蒸馏后不同行为的内部注意模式和电路。根据上述发现,我们提出了三种有效的解决方案来提高去偏见方法的蒸馏性:开发高质量的数据进行增强,实施迭代知识蒸馏,并用从教师模型获得的权重初始化学生模型。据我们所知,这是关于KD对去偏见及其内部机制的影响的规模的第一项研究。我们的发现提供了对KD的工作原理以及如何设计更好去偏见方法的理解。 更新时间: 2025-10-30 00:34:16 领域: cs.LG,cs.AI,cs.CL,cs.CV
|