|
摘要: 检索增强生成(RAG)通过将其输出基于外部文档来增强大型语言模型。然而,这些系统仍然容易受到检索语料库的攻击,比如提示注入。基于RAG的搜索系统(例如Google的搜索AI概述)提供了一个有趣的环境来研究和防范这种威胁,因为防御算法可以从内置的可靠性信号(如文档排名)中受益,并且由于数十年来防止SEO而代表了对手的非LLM挑战。 受此场景的启发,但不限于此,本文介绍了一种名为ReliabilityRAG的框架,用于显式利用检索文档的可靠性信息来增强对抗性鲁棒性。 我们的第一个贡献采用图论视角来识别检索文档中的“一致多数”,以过滤出恶意文档。我们引入了一种基于在文档图上找到最大独立集(MIS)的新算法,其中边缘编码矛盾。我们的MIS变体明确优先考虑更可靠的文档,并在自然假设下提供了针对有界对抗性破坏的可证鲁棒性保证。鉴于对于大型检索集的精确MIS的计算成本,我们的第二个贡献是可扩展的加权采样和聚合框架。它明确利用可靠性信息,保留一些鲁棒性保证,同时高效处理许多文档。 我们提供的实证结果显示,相比之前的方法,ReliabilityRAG在对抗性攻击方面提供了更高的鲁棒性,保持了高的良性准确性,并在长篇生成任务中表现出色,而之前的以鲁棒性为重点的方法则表现不佳。我们的工作是朝着更有效、可证明鲁棒的防御方向迈出的重要一步,以防止RAG中检索语料库的破坏。 更新时间: 2025-09-27 22:36:42 领域: cs.CR,cs.AI
|