摘要: 知识蒸馏(KD)是一种重要的技术,通过将知识从大型教师模型传输到轻量级学生模型,可以在资源受限的设备上部署深度神经网络(DNNs)。尽管来自第三方平台的教师模型可能经过安全验证(如后门检测),但我们发现了一种新颖且关键的威胁:蒸馏条件后门攻击(DCBAs)。DCBA在教师模型中注入了潜在且无法检测的后门,通过KD过程在学生模型中激活,即使使用干净的蒸馏数据集也是如此。虽然现有方法的直接扩展对于DCBA是无效的,但我们将这种攻击制定为一个双层优化问题,并提出了一种简单而有效的方法(即SCAR)。具体来说,内部优化通过优化一个替代学生模型来模拟KD过程,而外部优化利用这个替代模型的输出来优化教师模型,以植入条件后门。我们的SCAR利用一种预优化的触发注入函数,利用隐式微分算法来解决这个复杂的优化问题。通过对不同数据集、模型架构和KD技术进行广泛实验,验证了我们的SCAR的有效性及其对现有后门检测的抵抗力,突显了KD过程中一个重要但之前被忽视的脆弱性。我们的代码可在https://github.com/WhitolfChen/SCAR 上找到。 更新时间: 2025-09-28 13:24:46 领域: cs.CR,cs.AI,cs.CV,cs.LG
|