找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 29|回复: 0

病毒感染对LLMs的攻击:你的中毒可能传播“VIA”合成数据

[复制链接]

334

主题

0

回帖

1027

积分

金牌会员

积分
1027
发表于 2025-9-30 19:41:59 | 显示全部楼层 |阅读模式
摘要: 合成数据是指由模型生成的人工样本。虽然已经验证了它在训练大型语言模型(LLMs)过程中显著提升性能,并且在LLM开发中被广泛采用,但它可能引入的潜在安全风险尚未得到调查。本文系统地评估了合成数据集成训练范式对LLMs在主流中毒和后门攻击下的抵抗力。我们发现这种范式表现出对现有攻击的强大抵抗力,主要得益于中毒数据和用于生成合成样本的查询之间不同的分布模式。为了增强这些攻击的有效性并进一步研究合成数据引入的安全风险,我们引入了一种新颖且通用的攻击框架,即病毒感染攻击(VIA),它能够通过合成数据传播当前攻击,即使在纯净查询的情况下也能实现。受网络安全病毒设计原则的启发,VIA将中毒载荷隐藏在保护性的“外壳”中,并战略性地搜索良性样本中的最佳劫持点,以最大化生成恶意内容的可能性。对数据中毒和后门攻击的广泛实验表明,VIA显著增加了合成数据中的中毒内容,并相应地提高了对下游模型的攻击成功率(ASR),使其达到了与中毒上游模型观察到的水平相当的水平。
更新时间: 2025-09-27 01:39:41
领域: cs.CR,cs.AI,cs.CL

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|Octave中文网学术交流论坛 ( 黑ICP备2024030411号-2 )

GMT+8, 2025-10-30 06:17 , Processed in 0.066044 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表